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未 书 以 便于 教学 的 方式 阔 述 计算 机 网 络 领域 的 核心 内 容 ， 我 非常 高 兴 地 说 ， 它 比 之 前 的 所 有 版 本 部 更 棒 ! 
David Clark IKARA ADE 
Peterson 和 Davie 详 尽 且 清晰 地 描述 了 各 层 网 络 协议 ， 通 过 丰富 的 参考 资源 帮助 学 生 更 深入 且 更 全 面 地 理 
解 正在 改变 世界 的 网 络 技术 。 这 本 书 的 每 个 版 本 都 与 时 俱 进 、 日 珠 完 善 
Jean Walrand MH K MERI a) Wee 
这 未 杰出 的 教材 通过 精心 的 章节 组 织 和 “全 景 式 ” 系 统 方法 来 展现 计算 机 网 络 世界 的 奥秘 ， 值 得 拥有 |! 


i —— Yonshik Choi PERA IEE 


本 书 是 计算 机 网 络 方面 的 经 则 教科 书 ， 凝 聚 了 两 位 顶尖 网 络 专家 几 十 年 的 理论 研究 、 实 践 经 验 和 大 量 第 一 
手 资料 ， 自 出 版 以 来 已 经 成 为 网 络 课程 的 主要 教材 之 一 ， 被 哈佛 大 学 、 斯 坦 福 大 学 、 卡 内 基 - 梅 隆 大 学 、 奈 尔 
大 学 、 普 林 斯 顿 大 学 等 众多 名 校 采 用 。 

本 书 采用 “系统 方法 ”来 探讨 计算 机 网 络 ， 把 网 络 看 作 一 个 由 相互 关联 的 构造 模块 组 成 的 系统 ， 通 过 实际 
应 用 中 的 网 络 和 协议 设计 实例 ， 特 别 是 因特网 实例 ， 讲 解 计算 机 网 络 的 基本 概念 、 协 议和 关键 技术 ， 为 学 生 和 
专业 人 士 理解 现行 的 网 络 技术 以 及 即将 出 现 的 新 技术 葛 定 了 良好 的 理论 基础 。 无 论 站 在 什么 视角 ， 无 论 是 应 用 
开发 者 、 网 络 管理 员 还 是 网 络 设备 或 协议 设计 者 ， 你 都 会 对 如 何 构建 现代 网 络 及 其 应 用 有 “全 景 式 ”的 理解 。 


本 书 特色 
@ 内 容 全 面 更 新 ， 包 含 更 多 对 于 网 络 技术 人 员 和 学 生 而 言 至 关 重 要 的 主题 ， 如 P2P、 无 线 技术 、 网 络 安全 和 
视频 技术 。 


o 更 加 关注 应 用 层 问题 ， 应 用 层 上 的 创新 性 研究 和 设计 是 当前 关注 的 中 心 。 
@ 为 了 方便 教学 ， 本 书 配 有 丰富 的 教 辅 资源 ， 包 括 教学 课件 、 教 材 图 片 、 实 验 手册 和 网 络 仿真 软件 
OPNET， 以 及 习题 解答 等 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 龙 断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 驻 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 
日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 
机 科学 发 展 的 儿 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 我 们 就 将 工 
作 重 点 放 在 了 渤 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson，MecGraw- 
Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关 
系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. 
Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, 
Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 
等 大 师 名 家 的 一 批 经典 作 品 ， 以 “计算 机 科学 丛书” 为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 
大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ， 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 竟 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 ， hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ;北京 市 西城 区 百 万 庄 南 街 1 号 


HR 100037 华章 科技 图 书 出 版 中 心 
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由 Larry L. Peterson 和 Bruce S. Davie 两 位 顶尖 网 络 专 家 撰写 的 《计算 机 网 络 ， 系统 
方法 》 已 经 成 为 计算 机 网 络 课程 的 主流 教材 ， 被 哈佛 大 学 、 斯 坦 福 大 学 、 卡 内 基 - 梅 隆 大 
学 、 康 奈 尔 大 学 、 普 林 斯 顿 大 学 等 国外 众多 名 校 采 用 。 本 书 英文 版 已 经 出 版 了 5 个 版 本 ， 
为 了 方便 国内 高 校 和 广大 读者 使 用 这 本 经 典 教材 ， 我 们 翻译 了 最 新 版 一 一 第 5 版， 

这 一 版 对 第 4 版 做 了 重大 的 改进 和 提升 : 扩充 和 更 新 了 无 线 技术 (包括 802.11 (Wi 
Fi), 3G 和 4G 蜂窝 无 线 技术 )、 拥 塞 控制 机 制 (针对 有 具有 高 带宽 延迟 积 的 网 络 和 无 线 网 
络 )、Web 服务 (包括 SOAP 和 REST 体系 结构 )、 域 间 路 由 和 边界 网 关 协 议 、 多 媒体 应 
用 协议 (包括 VoIP 和 视频 流 ) 等 方面 的 材料 ; 删 减 了 异步 传输 模式 (ATM) 和 令 牌 环 等 
过 时 的 内 容 ; 将 交换 、 路 由 、 可 靠 传输 协议 等 材料 分 成 “初级 ”和 “高 级 ”两 部 分 ， 以 适 
应 不 同 层次 读者 的 需要 ; 更 新 了 “相关 主题 ”和 “它们 现在 在 哪 ” 的 内 容 ， 以 反映 现实 世 
界 中 协议 的 最 新 发 展 状 况 。 

作者 强调 网 络 现 有 工作 方式 的 成 因 ， 采 用 “系统 方法 ”将 网 络 看 作 由 相互 关联 的 构造 
模块 组 成 的 系统 〈 反 对 严格 的 分 层 ) ， 并 引入 丰富 的 因特网 实例 说 明 实 际 网 络 的 设计 。 书 
中 给 出 的 程序 代码 不 是 基于 某 个 特定 的 操作 系统 ， 而 是 经 过 重新 改编 以 适应 通用 环境 ， 说 
明 网 络 软件 是 如 何 实现 的 ， 借 此 帮助 读者 了 解 网 络 的 基础 构件 是 如 何 结合 在 一 起 的 .。 

本 书 是 目前 最 新 版 的 关于 计算 机 网 络 的 优秀 教材 ， 为 学 生 和 专业 人 士 理解 现行 的 网 络 
技术 以 及 即将 出 现 的 新 技术 奠定 了 良好 的 理论 基础 ， 是 确保 成 功 的 课堂 教学 和 高 效 的 网 络 
运行 的 重要 资源 。 

本 书 由 北京 理工 大 学 软件 学 院 的 王 勇 副教授 主持 翻译 ,参加 翻译 工作 的 有 北京 理工 大 
学 的 王 勇 (第 1 和 8 章 、 前 言 、 习 题 选 答 、 术 语 )、 苹 静 锋 〈 第 2 章 )、 张 龙 飞 〈 第 3、4、 
7 章 )、 陈 琳 (第 5、6 章 ) 和 公安 部 第 三 研究 所 的 李 明 (第 9 章 )， 男 外 ， 胡 唱 唱 对 本 书 的 
翻译 也 提供 了 很 大 帮助 。 

由 于 译 者 水 平 有 限 ， 书 中 可 能 有 错误 或 不 甚 完善 之 处 ， 读 者 如 果 有 意见 或 建议 ， 欢 迎 
通过 E-mail 与 译 者 联系 : wybit@sina. com, 





译 者 
2015 年 3 月 
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为 了 与 不 断 发 展 的 计算 机 网 络 领 域 保持 同步 ， 我 们 对 这 本 经 典 教材 再 一 次 进行 了 修 
订 。 虽 然 因 特 网 和 相关 协议 在 当前 所 有 网 络 互 连 中 占 主导 地 位 ， 但 我 们 看 到 央 特 网 的 支撑 
技术 还 在 持续 发 展 ， 例 如 , “二 层 ” 交 换 提供 了 丰富 的 功能 和 强大 的 网 络 管理 工具 。 本 书 
前 一 版 将 交换 和 路 由 分 在 两 章 中 讲解 ， 但 是 基于 分 层 的 描述 并 不 总 是 表达 教材 要 点 的 最 好 
方法 ， 因 为 所 谓 的 交换 和 路 由 实际 上 起 到 类 似 且 互补 的 作用 。 新 版 以 一 种 综合 方法 来 看 待 
这 些 主 题 ， 这 使 得 它们 在 功能 上 的 相似 点 和 不 同 点 更 加 明显 。 路 由 的 高 级 主题 则 移 到 下 一 
草 。 可 以 根据 课程 的 重点 和 层次 略 过 该 章 。 

我 从 来 不 喜欢 用 纯 分 层 的 方法 讲授 网 络 ， 正 如 第 1 版 序言 中 所 说 (我们 在 本 版 中 重印 
该 序言 只 是 为 了 好 玩 ) 。 联 网 中 的 一 些 关 键 问 题 ， 包括 安全 和 性 能 ， 不 能 通过 将 它们 分 配 
在 一 层 中 来 解决 一 一 不 存在 一 个 “性 能 ” 层 。 这 类 主题 不 但 关键 ， 而 且 跨 越 多 个 层次 ， 订 
书 的 组 织 结构 仍然 涵盖 主题 以 及 层次 。 组 织 结构 反映 了 本 书 作 为 教材 的 丰富 经 验 ， 同 时 也 
反映 出 一 种 方法 倾向 ， 即 同时 呈现 基础 知识 和 当前 实践 。 

一 些 垂 死 的 技术 现在 消失 或 萎缩 了 ,包括 令 牌 环 ( 我 曾经 的 最 爱 , 但 显然 是 它 该 离开 
的 时 候 了 ) 和 ATM。 新 版 意识 到 我 们 应 该 更 多 地 关注 应 用 设计 ， 而 不 仅仅 是 分 组 转发 。 
无 线 和 移动 技术 也 得 到 更 多 关注 。 

作者 再 次 努力 工作 ， 以 便 写 出 能 够 以 一 种 方便 教学 的 方式 阐述 该 领域 重点 内 容 的 修订 
版 。 我 很 高 兴 地 看 到 这 一 版 比 以 前 的 更 好 。 





David D. Clark 
2010 年 11 月 
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面条 型 代码 (spaghetti code) 撞 词 普遍 被 认为 是 一 种 侮辱 。 所 有 优秀 的 计算 机 科学 家 
都 推演 模块 化 ， 这 是 因为 它 能 带 来 许多 好 处 ， 最 大 的 好 处 是 解决 问题 而 不 必 同 时 了 解 问题 
的 所 有 环节 。 因 此 ， 本 书 在 表达 观点 和 编写 代码 时 ,模块 化 扮演 着 重要 的 角色 。 如 果 一 本 
书 的 材料 以 模块 化 的 方式 有 效 地 组 织 起 来 ,那么 读者 就 会 很 乐意 从 头 读 到 尾 . 

在 网 络 协 议 领 域 ， 采 用 国际 标准 形式 ， 即 ISO 的 七 层 网 络 协议 参考 模型 . 给 出 了 “人 恰 
当 的 ”模块 化 ， 这 或 许 是 独一无二 的 。 该 模型 反映 了 一 种 分 层 的 模块 化 方法 ,经常 作为 讨 
论 协议 的 起 点 ， 以 分 析 所 讨论 的 设计 是 符合 还 是 偏离 这 种 模型 . 

看 上 去 根据 这 种 分 层 模型 来 组 织 一 本 网 络 书籍 是 显而易见 的 。 但 事实 上 这 样 做 是 有 风 
险 的 ， 因 为 OSI 模型 在 组 织 网 络 的 核心 概念 时 并 不 成 功 。 一 些 基 本 需求 如 可 靠 性 、 流 量 
控制 或 安全 ， 能 够 在 多 数 (即使 不 是 所 有 ) OSI 分 层 中 解决 。 这 种 实际 情况 导致 对 参考 模 
型 理解 的 巨大 混乱 ， 有 时 甚至 产生 怀疑 。 实 际 上 ， 如果 严 格 按照 层次 模型 来 组 织 一 本 书 . 
那么 它 就 具有 某 些 面条 型 代码 的 特点 了 。 

本 书 是 根据 什么 来 组 织 的 呢 ? Peterson 和 Davie 遵循 传统 的 分 层 模型 .但 他 们 并 不 否 
认 该 模型 实际 上 无 助 于 理解 网 络 中 的 重大 问题 。 相 反 ， 作者 采用 一 种 与 层次 无 关 的 方法 来 
组 织 基 本 概念 的 讨论 。 因此， 在 阅读 本 书后 ， 读 者 将 会 理解 流量 控制 、 拥 塞 控 制 、 可 靠 性 
增强 、 数 据 的 表示 以 及 同步 等 问题 。 同 时 ， 读 者 将 了 解 在 传统 分 层 模 型 的 某 一 层 中 如 何 解 
决 这 些 问题 。 

这 是 一 本 与 时 俱 进 的 书 。 本 书 着 眼 于 当前 使 用 的 重要 协议 ,尤其 是 有 关 因 特 网 的 协 
议 。Peterson 和 Davie 长 期 从 事 因 特 网 相关 工作 ， 上 有 具有 丰富 的 经 验 。 因 此 ， 他 们 的 书 不 仅 
从 理论 上 而 且 从 实践 上 揭示 了 协议 设计 的 问题 。 本 书 也 介绍 许多 最 新 的 协议 .读者 可 以 从 
中 获取 最 新 的 观点 。 更 重要 的 是 ， 对 基本 问题 的 讨论 是 源 自 问题 的 本 质 ， 而 不 受 分 层 参 考 
模型 或 当前 协议 细节 的 限制 。 在 这 一 点 上 ， 本 书 既 体现 了 时 效 性 ， 又 不 受 时 间 的 限制 。 本 
书 的 独特 之 处 在 于 它 将 有 关 的 实际 问题 、 实 例 和 基本 概念 的 解释 有 机 地 结合 在 一 起 。 


David D. Clark 
麻 省 理工 学 院 
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当 本 书 第 1 版 在 1996 年 出 版 时 ,在 因特网 上 购物 还 是 很 新 奇 的 事情 ， 如 果 一 家 公司 
用 它 的 域名 做 广告 ， 人 们 认为 这 是 很 超前 的 。 那 时 ， 家庭 接 入 因特网 的 主要 方式 是 通过 挨 
号 调制 解 调 器 。 今天， 因特网 商务 已 成 为 无 法 改变 的 现实 ,，“. com” 股 票 已 经 历 了 一 个 完 
整 的 兴衰 循环 。 无线 网 络 无 处 不 在 ,诸如 智能 手机 和 平板 电脑 等 具有 上 网 功能 的 新 设备 正 
以 令 人 目 肪 的 速度 上 市 。 关 于 因特网 ， 似 乎 唯一 可 以 预见 的 就 是 它 会 不 断 变 化 。 

尽管 有 这 么 大 的 变化 ， 但 我 们 在 第 1 版 中 提出 的 问题 对 于 今天 来 说 仍然 是 有 效 的 : 使 
因特网 得 以 运行 的 基本 概念 和 技术 是 什么 ”答案 是 ，TCP/IP 体系 结构 的 大 部 分 功能 在 今 
天 仍然 适用 ， 这 一 点 正 像 30 多 年 前 它 的 发 明 者 所 预见 的 那样 。 这 并 不 是 说 因特网 的 体系 
结构 枯燥 乏味 ， 而 是 完全 相反 。 对 于 一 个 历经 30 多 年 ， 不 但 幸存 下 来 ， 而 且 促 进 因特网 
这 样 快 速 地 增长 和 变化 的 体系 结构 ,将 理解 其 设计 原理 作为 学 习 网 络 的 起 点 是 很 合适 的 ， 
正如 前 几 版 一 样 . 第 5 版 将 因特网 体系 结构 中 的 “为 什么 ”作为 基础 。 


读者 对 象 


我 们 的 目的 是 把 本 书 作 为 综合 网 络 课程 的 教材 ， 供 研究 生 或 高 年 级 本 科 生 使 用 。 我 们 
相信 ， 本 书 对 核心 概念 的 专注 不 但 对 正在 进行 再 培训 以 便 完成 网 络 相 关 工 作 的 专业 人 员 有 
吸引 力 ， 而 且 可 以 帮助 网 络 从 业 人 员 理 解 他 们 每 天 接触 的 网 络 协议 背后 的 “为 什么 ”， 并 
旦 着 眼 于 网 络 的 全 貌 。 

根据 我 们 的 经 验 ， 第 一 次 学 习 网 络 的 学 生 和 专业 人 员 通 常会 把 网 络 协议 理解 成 一 种 从 
高 层 传 到 低层 的 命令 ， Piga TLA (Three-Letter Acronyms， 三 个 字母 的 
缩写 词 ) 就 可 以 了 。 事 实 上 ， 协 议 是 应 用 工程 设计 原理 开发 出 来 的 复杂 系统 的 构件 。 不仅 
如 此 ， 协 议 总 是 根据 现实 世界 的 经 验 不 断 地 进行 精炼 、 扩 展 和 替换 。 基 于 这 一 点 ,本 书 的 
目标 并 不 是 单纯 地 介绍 当前 使 用 的 协议 ， 而 是 解释 良好 网 络 设计 的 基本 原理 。 我 们 认为 党 
握 这 些 基本 原理 是 应 对 当前 瞬息 万 变 的 网 络 领 域 的 最 好 方法 。 

我 们 还 意识 到 人 们 用 很 多 不 同 的 方法 来 看 待 网 络 。 与 我 们 写 第 1 版 时 相 比 ， 大 多 数 阅 
读本 书 的 人 都 是 具有 丰富 经 验 的 网 络 用 户 。 一 些 人 和 希望 成 为 网 络 产品 或 协议 的 设计 者 ， 其 
他 人 可 能 对 管理 网 络 感 兴趣 ， 而 越 来 越 多 的 读者 正在 或 将 要 成 为 互联 网 设备 的 应 用 开发 
者 。 未 来 产品 和 协议 的 设计 者 历来 是 我 们 关注 的 重点 ， 现 在 依然 如 此 ， 但 在 本 版 中 ,我 们 
也 试图 关注 网 络 管理 员 和 应 用 开发 者 。 


第 5 版 中 的 变化 


尽管 我 们 关注 网 络 的 基本 原则 ， 但 我 们 还 是 要 使 用 正在 运行 的 因特网 中 的 例子 来 阐述 
这 些 原 则 。 内 此 ， 我 们 补充 了 相当 多 的 新 资料 来 跟踪 近期 网 络 技术 的 重要 发 展 。 我 们 同时 
对 已 有 资料 做 了 删除 、 重 新 组 织 和 改写 ， 以 反映 过 去 10 年 发 生 的 变化 。 

也 许 自从 编写 第 1 版 以 来 我 们 所 觉察 到 的 最 重要 的 变化 ， 就 是 现在 几乎 每 一 位 读者 部 


名 


对 诸如 万 维 网 和 电子 邮件 这 样 的 网 络 化 应 用 有 了 一 定 的 了 了解。 因此 .我们 从 第 1 章 开 始 就 
加 大 了 对 应 用 的 侧重 。 我 们 把 应 用 当 作 学 习 网 络 技 术 的 动机 ， 并 得 出 一 和 wi 用 的 网 
络 只 有 满足 这 些 震 求 才能 在 全 球 范围 内 支持 当前 和 未 来 的 各 种 应 用 PA ip oa 
前 版 本 解决 问题 的 方法 ， 即 从 主机 的 互联 问题 开始 ， 逐 层 向 上 上 讨论. ce 
进行 详细 的 考察 。 我 们 认为 从 各 种 应 用 及 其 需求 起 步 对 于 在 本 书 所 给 羡 的 各 主题 间 建 立 联 
系 是 很 重要 的 。 同 时 .我 们 感到 对 于 诸如 应 用 层 协议 和 传 笨 层 协议 等 高 层 协议 的 问题 .只 
有 在 明白 主机 互 连 和 分 组 交换 这 样 的 基本 问题 之 后 才能 很 好 地 理解 。 也 就 是 说 .我们 使 得 
以 一 种 更 加 自 项 向 下 的 方式 组 织 材料 成 为 可 能 ,详情 如 下 所 述 ， 

正如 前 几 版 . 我 们 增 大 了 对 重要 新 主题 的 覆盖 面 . 并 使 其 他 主题 紧 跟 潮流 。 新 版 中 主 
要 的 新 主题 或 有 实质 性 改动 的 主题 包括 : 

。 更 新 了 无 线 技术 的 内 容 ， 特 别 是 802. 11 (Wi-Fi) 的 各 种 相关 内 容 以 及 包括 第 三 代 

移动 通信 标准 (3G) 和 正在 逐步 普及 的 4G 标准 在 内 的 蜂窝 无 线 技术 。 

。 更 新 了 拥塞 控制 机 制 的 内 容 。 特别 是 县 有 高 延迟 带宽 积 的 网 络 和 无 线 网 络 

。 更 新 了 Web 服务 的 材料 . 包括 SOAP 和 REST (Representational State Transfer. 

表述 性 状态 转移 ) 体系 结构 

。 扩展 和 更 新 了 域 间 路 由 和 边界 网 关 协 议 (BGP) 的 内 容 

。 扩展 了 多 媒体 应 用 协议 的 内 容 . 如 基于 IP 的 请 音 〈VoIP) 和 视频 流 。 

我 们 还 减少 了 目前 已 不 太 相 关 的 主题 。 在 本 版 中 ， 被 转移 到 “历史 性 ”类 别 中 的 内 容 
包括 异步 传输 模式 (ATM) 和 令 牌 环 。 

新 版 最 大 的 变化 之 一 是 将 材料 分 成 “初级 ”和 “高 级 ”两 部 分 。 我 们 布 望 不 了 解 网 络 
技术 和 协议 的 人 更 容易 接受 本 书 ， 同时 也 不 丢弃 高 层次 读者 需要 的 高 级 内 容 。 这 种 变化 产 
生 的 最 明显 的 影响 是 现在 第 3 革 包 含 交 换 、 路 由 和 网 络 互 连 的 基础 内 容 ， 而 第 + 草包 含 更 
高 级 的 路 由 主题 ， 如 BGP、IPv6 和 多 播 。 与 此 类 似 . 传输 协议 基础 放 在 第 5 章 ， 而 更 高 
级 的 材料 (如 TCP 拥塞 控制 算法 ) 出 现在 第 6 章 。 我 们 相信 ,这 种 变化 会 使得 不 熟悉 该 
领域 的 读者 掌握 重要 的 基本 概念 . 并 且 不 会 因为 复杂 主题 而 不 堪 重 负 

就 像 上 一 版 一 样 ， 我 们 加 入 了 一 些 “ 它 们 现在 在 哪 ” 的 讨论 。 这 些 简 短 的 讨论 在 本 版 中 
经 过 更 新 ， 重点 关注 现实 此 界 中 协议 的 成 败 。 有 时 .它们 描述 了 一 个 已 经 被 大 多 数 人 忽视 但 
实际 上 取得 了 名 不 见 经 传 的 成 功 的 协议 ; 有 时 ,它们 跟踪 某 个 经 过 很 长 时 间 却 失败 了 的 协议 
的 命运 。 这 些 内 容 的 目的 是 通过 展示 技术 在 竞争 的 网 络 世 界 中 的 表现 来 把 材料 关联 起 来 


系统 方法 


对 于 像 计算 机 网 络 这 样 动态 的 和 不 断 变 化 的 领域 来 说 ,一 本 教材 能 提供 的 最 重要 的 东 
Pa 力 ， 以 便 分 清 什么 是 重要 的 、 什 么 是 不 重要 的 、 什 么 是 长 久 的 、 什 么 是 肤浅 
。 根 据 我 们 在 网 络 新 技术 研究 、 为 本 科 生 与 研究 生 讲 授 网 络 最 新 趋势 以 及 把 先进 的 网 络 
de 市 场 等 方面 超过 25 APENE 我 们 提炼 了 自己 的 观点 一 一 系统 方法 ， 它 是 本 书 
的 精 艇 ,系统 方法 有 以 下 含义 
。 基 本 原则 。 与 其 将 现成 的 网 络 产品 作为 准则 ,不 如 从 基本 原则 开始 耳 解 当 今 网 络 
技术 的 发 展 过 程 。 这 能 让 我 们 解释 网 络 为 什么 像 现 在 这 样 设计 。 根据 我 们 的 经 验 ， 


IX 


-日 理解 了 基本 概念 ， 那么 理解 遇 到 的 任何 新 协议 都 将 变 得 相对 容易 。 

非 分 层 主义 者 。 虽 然 材 料 是 围绕 传统 网 络 层次 松散 地 组 织 起 来 的 ， Toe 

协议 栈 向 上 展开 . 但 是 我 们 并 不 采用 严格 分 层 的 方法 。 许 多 主题 涉及 上 下 多 个 

ee 

和 交换 机 有 很 多 共同 点 〈 并 且 经 常 结合 起 来 组 成 单个 产品 )， 因 此 我 们 在 同一 章 中 

讨论 它们 。 简 言 之 .我 们 相信 分 层 是 很 好 的 辅助 ， 但 不 必 受 它 的 限制 ， 采 用 端 到 

端的 观点 常常 更 有 用 。 

。 现实 世界 的 例子 。 与 其 抽象 地 解释 协议 如 何 工 作 ， 不 如 使 用 当今 最 重要 的 协议 具 
es 工作 的 。 许 多 协议 都 是 源 自 TCP/IP 因特网 的 ， 这 就 允许 我 们 
在 讨论 中 借鉴 实际 经 验 。 

a me et ORR 
司 租用 的 通信 服务 构建 而 成 的 . 但 是 ,只 有 软件 才能 使 网 络 提供 新 服务 ， 并 迅速 
适应 环境 变化 。 这 就 是 我 们 为 什么 强调 网 络 软 件 如 何 实现 ， 而 不 是 只 停留 在 描述 
所 涉及 的 抽象 算法 上 。 我 们 还 会 给 出 实际 运行 的 协议 栈 的 代码 段 ， 以 说 明 如 何 实 
现 某 些 协议 和 算法 . 

。 以 端 到 端 为 重点 。 网 络 是 由 许多 组 件 构 成 的 ， 虽然 在 解决 具体 问题 时 有 必要 忽略 

- 些 不 感 兴趣 的 元 素 , 但 是 理解 如 何 将 这 些 组 件 组 合成 具有 一 定 功能 的 网 络 是 非 
常 重要 的 。 所 以 我 们 花 大 量 的 篇 幅 解释 网 络 完整 的 端 到 端 行为 ， 而 不 只 是 单个 组 
件 ， 以 便 理 解 一 个 完整 的 网 络 是 如 何 运 行 的 ， 包 括 从 应 用 到 硬件 的 所 有 方面 。 

。 性 能 。 eden 
选项 进行 定量 分 析 并 指导 优化 实现 。 这 种 对 实验 分 析 的 强调 贯穿 全 书 。 

。 设计 原则 。 网 络 很 像 其 他 计算 机 系统 ， 如 操作 系统 、 处 理 器 体系 结构 、 分 布 式 和 
并 行 系统 等 。 它 们 都 很 大 ， 也 很 复杂 。 为 了 处 理 这 种 复 i 系统 设计 者 常常 提 
出 一 组 设计 原则 。 在 书 中 介绍 这 些 设计 原则 时 ， 我 们 会 子 以 强调 ， 并 用 计算 机 网 
络 中 的 例子 进行 解释 说 明 。 


学 特色 


第 5 版 保留 了 以 前 版 本 中 关键 的 教学 特色 ， 我 们 鼓励 读者 利用 这 些 特色 : 
t R, 在 每 一 章 的 开始 ， 我 们 通过 一 个 问题 指明 网 络 设 计 中 必须 要 解决 的 后 续 问 
这 有 段 描述 将 引出 并 推动 本 章 要 探讨 的 问题 。 

er “相关 主题 ”内 容 描 述 了 正在 讨论 的 主题 或 介绍 相关 高 级 主 
题 ， 这 些 多 为 关于 网 络 的 逸闻 趣事 。 

> ENERET? BSE RCE renee aie FRR, 

。 结论 。 这 些 段落 归纳 了 在 讨论 中 得 出 的 重要 结论 ， 如 广泛 适用 的 系统 设计 原则 。 

。 实际 协议 。 昌 然 本 书 的 重点 是 核心 概念 而 不 是 现 有 的 协议 规程 ， 但 实际 协议 常 被 
用 于 说 明 大 部 分 的 重要 观点 。 因 此 本 书 可 以 作为 很 多 协议 的 参考 源 。 为 了 帮助 你 
找到 这 些 协议 的 描述 ， 相 关 童 节 标 题 中 用 括号 括 起 来 的 内 容 指 明 在 本 节 中 描述 的 
协议 。 例 如 ，5. 2 节 描 述 可 靠 的 端 到 端 协议 的 原理 ， 它 提供 对 TCP 的 详细 描述 ， 


以 作为 这 类 协议 的 典型 实例 。 

。 接 下 来 会 发 生 什么 ? 我们 以 研究 团体 、 业 界 或 整个 社会 正在 探讨 的 一 个 重要 问题 
作为 每 一 意 主 体 部 分 的 结尾 。 我 们 发 现 讨论 这 些 前 脆性 问题 有 助 于 将 网 络 主题 变 
得 更 加 相互 关联 且 令 人 兴奋 。 

"PENR, 在 每 一 章 结 尾 有 精 选 的 扩展 阅读 列表 。 每 个 列表 一 般 包 含有 关 刚 刚 讨 

论 的 主题 的 重要 论文 。 我 们 强烈 推荐 高 级 读者 〈 如 研究 生 ) 研究 扩展 阅读 中 的 论 
magne 所 讲 的 材料 。 


本 书 结构 和 教学 方法 


本 书 按 如 下 方式 进行 组 织 : 

。 第 1 曹 介 绍 全 书 使 用 的 核心 概念 。 从 各 种 应 用 出 发 ， 讨 论 网 络 体系 结构 的 组 成 ， 

介绍 协议 的 实现 问题 ， 并 定义 通常 能 够 促进 网 络 设计 的 定量 性 能 度量 

。 第 2 章 综 述 用 户 与 因特网 等 大 型 网 络 相 连 的 多 种 方法 ， 介绍 链 路 的 概念， 描述 所 
有 链 路 层 协议 必须 解决 的 许多 问题 ， 包 括 编码 、 ASS EERW. 。 当 前 最 重要 的 
链 路 技术 以 太 网 和 无 线 也 在 本 章 中 讲述 。 

。 第 3 章 从 虚 电 路 和 数据 报 模型 开始 介绍 交换 和 路 由 的 基本 概念 . 包括 网 桥 和 局 域 
网 交换 ， 接 下 来 是 对 网 络 互 连 的 介绍 ， 包 括 网 际 协议 (nternet Protocol, IP) 和 
路 由 协议 。 本 章 的 结尾 讨论 了 一 系列 基于 硬件 和 软件 构造 路 由 器 和 交换 机 的 方法 。 

。 第 4 章 涵盖 高 级 网 络 互 连 主题 。 包 括 多 区 域 路 由 协议 、 域 间 路 由 和 BGP、IPv6、 
多 协议 标记 交换 (MultiProtocol Label Switching, MPLS) 和 多 播 . 

。 第 5 章 转移 到 传输 层 ， 详 细 描述 因特网 中 用 于 创建 客户 /服务 器 应 用 的 传输 控制 协 
i (Transmission Control Protocol. TCP) 和 远程 过 程 调 用 (Remote Procedure 
Call, RPC)， 同 时 介绍 支持 多 媒体 应 用 的 实时 传输 协议 (Real-time Transport Pro- 
tocol, RTP). 

。 第 6 MICE dl MARA. REA I ot ee ERR CE 2 章 )、 网 络 层 
(第 3、4 章 ) 和 传输 层 (第 5 章 ) 。 特 别 注意 ， 本 章 还 描 述 拥塞 控制 如 何在 TEP E 
THE, 并且 介 绍 在 IP 中 en 量 的 机 制 。 

。 第 7 章 考虑 通过 网 络 发 送 的 数据 。 这 涉及 表示 格式 和 数据 压缩 问题 。 XML 也 在 本 
章 讲述 ， 压 缩 部 分 包括 对 MPEG 视频 压缩 和 MP3 音频 压缩 工作 原理 的 解释 。 

。 第 8 章 讨 论 网 络 安全 ， 首 先 简要 介绍 密码 学 工具 和 密 钥 分 发 问题 ， 然 后 讨论 几 种 
使 用 公 钥 和 私 钥 的 认证 技术 。 本 章 的 重 AARAA 良好 隐私 (Pretty Good Pri- 
vacy，PGP) 、 安 全 外 壳 (Secure Shell, SSH) #l IP 安全 体系 结构 CIPSEC) 构建 
安全 系统 。 防 火 墙 也 在 本 章 讨 论 。 

。 第 9 章 描述 典型 的 网 络 应 用 实例 和 它们 使 用 的 协议 ， 包 括 像 电子 邮件 和 万 维 网 这 
样 的 传统 应 用 、 像 IP 电话 和 视频 流 这 样 的 多 媒体 应 用 ， 以 及 像 对 等 文件 共享 和 内 
次 分 发 网 络 这 样 的 覆盖 网 络 。 本 章 还 描述 基础 设施 服务 一 一 域名 系统 (Domain 
Name System, DNS) 和 网 络 管理 。 用 于 开发 新 应 用 协议 的 Web 服务 体系 也 在 本 
章 介绍 。 


对 于 本 科 生 课程 ， 很 可 能 需要 追加 课时 来 帮助 学 生理 解 第 1 章 中 的 介绍 性 材料 ， 而 放 
弃 第 上 章 以 及 第 6 一 8 章 中 涵盖 的 高 级 主题 。 然 后 在 第 9 章 回 到 网 络 应 用 的 一 般 主题 。 本 
科 生 课程 可 以 合理 地 跳 过 更 高 级 的 部 分 (如 5.3 节 、9.3.1 节 、9.3.2 节 和 9.2.2 节 )。 

相 比 之 下 ， 研 究 生 课程 的 教师 应 该 能 够 只 用 1 次 或 2 次 课 讲 完 第 1 章 一 一 让 学 生 自 己 
更 认真 地 学 习 这 些 材料 ， 从 而 可 以 空 出 更 多 的 课时 更 深入 地 讲授 第 4 章 及 后 续 章 节 。 

对 于 自学 本 书 的 读者 ， 我 们 相信 所 选 的 主题 涵盖 了 计算 机 网 络 的 核心 内 容 ， 因 此 建议 
从 前 向 后 顺序 阅读 。 另 外 ,我 们 提供 了 详细 的 参考 文献 目录 ， 帮 助 读 者 找到 与 感 兴趣 的 特 
定 领域 相关 的 补充 资料 。 我 们 还 提供 了 习题 选 答 。 

本 书 用 独特 的 方法 讨论 拥塞 控制 ， 即 把 有 关 拥 塞 控制 和 资源 分 配 的 所 有 主题 集中 到 第 
6 章 。 这 样 做 是 因为 拥塞 控制 问题 不 能 在 任何 一 层 单独 解决 ， 我们 希望 读者 能 够 同时 考虑 
各 种 设计 选择 (这 与 我 们 的 观点 是 一 致 的 ， 即 严格 的 分 层 常 常 模糊 了 重要 的 设计 权衡 )。 
然而 ， 用 更 传统 的 方法 来 讲解 拥塞 控制 也 是 可 能 的 ， 即 在 学 习 第 3 章 时 参考 6. 2 节 的 内 
容 ， 以 及 在 学 习 第 5 董 时 参考 6. 3 节 的 内 容 。 


自 顶 向 下 的 学 习 路 线 


oo 分 学 生 都 熟悉 网 络 应 用 ， 因 此 一 些 课程 从 应 用 开始 讲解 。 
虽然 本 书 的 确 在 第 1 章 提纲 帮 领 地 介绍 了 应 用 ， 但 直到 第 9 章 才 详细 讨论 应 用 层 的 问题 。 考 
ae he 项 向 下 的 方法 ， 我 们 建议 采用 如 下 可 能 的 方式 使 用 本 书 
的 材料 。 

。 第 1 章 。 本 章 描 述 应 用 及 其 需求 ， 为 教材 的 其 他 内 容 做 好 铺垫 。 

© BOR, 传统 应 用 (9. 1 节 ) 和 多 媒体 应 用 (9.2 节 ) 部 分 以 读者 熟悉 的 应 用 作为 

例子 来 引入 网 络 协议 的 概念 。9. 3. 1 节 (DNS) Seed, 

© 接 下 来 应 该 讲授 7. 2 节 ， 解 释 多 媒体 应 用 产生 的 数据 是 如 何 编码 和 压缩 的 。 

。 第 5 音 。 此 时 可 以 讲解 传输 协议 基础 ， 解 释 应 用 层 协议 产生 的 数据 如 何 进行 可 靠 


的 路 网 络 传输 。 
© 第 3 章 。 可 以 将 交换 、 网 络 互 连 和 路 由 理解 为 提供 传输 协议 运行 所 依赖 的 基础 
设施 


人 最 后 ， 可 以 讲解 数据 到 底 是 如 何在 像 以 太 网 链 路 和 无 线 链 路 这 样 的 物理 
进行 编码 和 传输 的 。 

显然 ， 我 们 在 上 述 安排 中 略 去 了 很 多 章节 。 对 于 更 高 级 的 课程 或 更 深入 的 自学 ， 可 以 
在 后 面 追 加 像 资源 分 配 〈 第 6 章 ) 和 安全 (第 8 章 ) 等 主题 以 及 第 4 章 中 的 高 级 主题 。 安 
全 几乎 可 以 单独 讲解 ， 但 所 有 高 级 主题 只 有 在 第 3 章 和 第 5 章 中 分 别 讲解 了 IPH TCP 之 
后 才 有 意义 

注意 ， 访 问 booksite. elsevier. com/9780123850591/lec. php， 除 了 按照 本 书 的 顺序 制 
作 的 一 套 课件 以 外 ， 还 包括 按照 上 述 自 顶 向 下 顺序 制作 的 一 套 课件 。 
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习题 
每 一 版 中 都 对 习题 进行 了 重大 改进 。 在 第 2 版 中 ， 我们 增加 了 习题 的 数量 ， 并 且 根 据 


Ml 


课堂 测验 大 大 提高 了 习题 的 质量 。 在 第 3 版 中 ,我 们 对 习题 做 了 两 方面 的 重大 修改 ， 
包括 : 
。 对 那些 我 们 认为 很 有 挑战 性 或 需要 本 书 以 外 知识 (如 概率 知识 ) 的 习题 ， 加 上 让 
标记 以 表明 它们 的 难度 更 高 。 
。 我 们 在 每 一 章 都 增加 了 一 些 额外 的 典型 习题 并 在 书后 提供 答案 。 这 些 习 题 用 标 
记 ， 目 的 是 为 完成 其 他 习题 提供 一 些 帮 助 。 
在 这 一 版 中 增加 了 新 习题 以 反映 更 新 的 内 容 ， 现 有 习题 可 分 为 如 下 几 类 : 
。 分析 性 习题 ， 要 求学 生 做 简单 的 代数 计算 ， 展 示 他 们 对 基本 关系 的 理解 。 
。 设 计 习题 ， 要 求学 生 针 对 各 种 情况 设计 并 评估 协议 。 
。 实践 习题 ， 要 求学 生 写 少量 代码 以 测试 一 个 想法 或 使 用 现成 的 网 络 工具 进行 实验 ， 
。 文 献 研究 习题 ， 让 学 生 更 深入 地 了 解 某 个 特定 主题 。 
此 外 ， 正 如 下 面 所 详细 描述 的 那样 ， 基 于 套 接 字 的 编程 习题 以 及 仿真 实验 可 以 在 线 
获得 。 


补充 材料 和 在 线 资 源 


为 了 方便 教学 ， 我 们 准备 了 教学 手册 ， 其 中 包括 一 些 习题 的 解答 。 可 以 向 出 版 社 索 取 
该 手册 .2 

其 他 辅助 材料 ， 包 括 课 件 、 教 材 图 片 、 基 于 套 接 字 的 编程 习题 、 测 验 题 以 及 编程 习题 
可 以 在 Morgan Kaufmann 的 网 站 上 找到 ， 网 址 为 booksite. elsevier. com/9780123850591 / 
index. php。 

最 后 ， 与 第 4 版 一 样 ， 本 书 配 有 一 套 实验 。 这 些 实验 由 马萨诸塞 大 学 达 特 茅 斯 分 校 的 
Emad Aboelela 教授 开发 ， 通 过 仿真 实验 来 探讨 本 书 中 协议 的 行为 、 可 扩展 性 和 性 能 。 讨 
论 实验 相关 材料 的 章节 均 带 有 标记 。 仿 真 使 用 OPNET 仿真 工具 集 .。” 


致谢 

如 果 没 有 众多 朋友 的 帮助 ， 本 书 是 不 可 能 问世 的 。 我 们 非常 感谢 所 有 为 改进 本 书 做 出 
贡献 的 人 人。 然而， 在 致谢 之 前 应 该 说 明 的 是 ， 我 们 已 经 尽力 改正 审阅 人 指出 的 错误 并 且 尽 
量 准确 地 描述 同事 们 向 我 们 解释 的 协议 和 机 制 。 如 果 还 有 什么 错误 ， 那 是 我 们 自己 的 责 
任 。 如 果 你 发 现任 何 错误 ， 请 发 电子 邮件 给 我 们 的 出 版 商 Morgan Kaufmann， 地 址 是 net- 
bugsPD5e@mkp. com， 我 们 将 在 本 书 再 次 印刷 时 进行 改正 。 

首先 ， 我 们 衷心 感谢 审阅 过 全 部 或 部 分 书稿 的 人 。 除 了 审阅 过 以 前 版 本 的 人 ， 我们 还 
想 感谢 Peter Dordal、Stefano Basagni、Yonshik Choi, Wenbing Zhao、Sarvesh Kulkar- 





名” 关于 本 书 教 辅 资源 ， 使 用 教材 的 老师 需 通过 爱 思 唯 尔 的 教材 网 站 (www. textbooks. elsevier. com) 注册 并 通过 审批 后 
才能 获取 相关 资源 。 具 体 方法 如 下 : 在 www. textbooks. elsevier. com 教材 网 站 查找 到 该 书后 ， 点 击 “instructor 
上 anual” 便 可 申请 查看 该 教师 手册 。 有 任何 问题 ， 请 致电 010-85208853。 一 一 编辑 注 

扎 “ 关 于 本 书 配套 的 《计算 机 网 络 实验 教程 》 (中文 版 )， 欢 迎 访问 华章 网 站 (www. hzbook. ORM eo] 
com/books/6937. html) 或 扫描 右 侧 二 维 码 了 解 详细 信息 。 全 部 实验 在 各 章节 的 对 应 位 置 ipi gi 
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基 础 





我 必须 创造 一 个 体系 ， 否 则 我 将 沦 为 别人 体系 的 附庸 ， 我 不 要 推理 和 比较 ， 我 的 工作 
是 创造 。 

一 一 威廉 ， 布 莱克 
ma: 建造 一 个 网 络 

假设 我 们 要 建造 一 个 计算 机 网 络 ， 它 有 发 展 到 全 球 性 规模 的 洪 力 ， 并 且 能 够 支持 各 种 
各 样 的 应 用 ， 如 远程 会 议 、 视 频 点 播 、 电 子 商务 、 分 布 式 计 算 和 数字 化 图 书馆 等 。 那 么 要 
采用 什么 现 有 技术 作为 基础 构件 ， 以 及 使 用 何 种 软件 体系 结构 才能 把 这 些 构件 集成 为 一 
有 效 的 通信 服务 ”本 书 最 主要 的 日 标 就 是 回答 这 个 问题 ， 首 先 描 述 可 用 的 构件 ， 然 后 说 明 
如 何 使 用 它们 从 头 开始 建造 一 个 网 络 。 

在 理解 如 何 设计 计算 机 网 络 之 前 , 我 们 首先 应 该 在 “什么 是 计算 机 网 络 ” 这 一 问题 上 
达成 共识 。 曾 经 有 一 段 时 期 ， 网 络 (network) 一 词 是 指 用 于 将 哑 终 端 连接 到 大 型 机 的 串 
行 线 集合 。 其 他 重要 的 网 络 包括 语音 电话 网 络 和 用 于 传播 视频 信号 的 有 线 电视 网 络 。 这 些 
网 络 的 主要 共同 点 是 专门 处 理 某 种 特定 类 型 的 数据 (按键 、 音 频 或 视频 )， 并 且 通 常 连接 
到 专用 设备 〈 终 端 、 手 持 接收 器 和 电视 机 ) 。 

计算 机 网 络 与 其 他 类 型 的 网 络 有 什么 区 别 ? 也 许 计 算 机 网 络 最 重要 的 特征 就 是 通用 
性。 计算 机 网 络 主要 由 通用 可 编程 硬件 来 构建 ， 并 且 不 需要 为 诸如 打 电 话 或 传输 电视 信号 
那样 的 特定 应 用 做 任何 优化 。 相 反 ， 计 算 机 网 络 能 够 传输 多 种 不 同类 型 的 数据 ， 并 且 支 持 
各 种 各 样 不 断 增 加 的 应 用 。 今 天 的 计算 机 网 络 正 越 来 越 多 地 接管 以 前 由 单一 用 途 网 络 执行 的 功 
能 。 本 章 考 察 计算 机 网 络 的 一 些 典型 应 用 ， 然 后 讨论 网 络 设计 者 为 支持 这 些 应 用 必须 要 了 解 的 
内 容 。 

-一旦 我 们 清楚 这 些 需 求 ， 接 下 来 该 怎么 做 呢 ? 幸运 的 是 ， 我 们 不 是 要 建造 第 一 个 网 
络 。 其 他 人 已 经 先 于 我 们 完成 了 这 项 任务 ， Ea P RR sel e Pe 员 。 我 们 将 利用 
在 因特网 构建 中 得 到 的 丰富 经 验 来 指导 我 们 的 设计 。 这 些 经验 体 现在 网 络 体系 结 $ #) (net- 
work architecture) 中 ， 网 络 体系 结构 指明 可 用 的 软 硬 件 构 件 ， 并 且说 明 如 何 将 它们 组 织 
起 来 构成 一 个 完整 的 网 络 系统 。 

余 了 理解 如 何 建造 网 络 ， 理 解 如 何 使 用 或 管理 网 络 、 如 何 开发 网 络 应 用 也 很 重要 。 现 
在 ， 大 部 分 家 庭 、 办 公 室 或 车 里 都 有 计算 机 网 络 ， 所 以 使 用 网 络 不 再 是 少数 专家 的 事情 。 
同时 ， 随 着 智能 手机 等 可 编程 联网 设备 的 激增 ， 将 会 有 更 多 的 人 从 事 网 络 应 用 开发 。 因 
此 ， 我 们 需要 从 多 个 视角 来 分 析 网 络 : 网 络 建造 者 、 网 络 运 营 者 、 应 用 开发 者 。 

为 了 理解 如 何 建造 、 运 营 网 络 和 进行 网 络 编程 ， 本 章 将 阐述 四 项 内 容 。 首先 ， 揭 示 不 
同 应 用 和 不 同人 群 对 网 络 的 需求 ; 第 二 ， 引 入 网 络 体系 结构 的 概念 ， 它 是 本 书后 续 部 分 的 
基础 ; 第 三 ， 介 绍 实现 计算 机 网 络 的 几 个 关键 因素 ; 最 后 ， 介 绍 衡量 计算 机 网 络 性 能 的 关 
键 度量 标准 。 
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1.1 应 用 


许多 人 是 通过 各 种 应 用 来 了 解 因特网 的 ， 例 如， 万维网 、 电 子 邮 件 、 在 线 社交 网 络 、 
音频 流 和 视频 流 、 即 时 通信 和 文件 共享 。 换 言 之， 我们 是 作为 网 络 用 户 Csen 来 访问 因 
特 网 的 。 因 特 网 用 户 是 访问 内 特 网 的 最 大 玫 体 ,但 还 有 其 他 几 个 重要 的 群体 ， 有 一 群 人 
43% (create) 应 用 ， 这 个 群体 近 几 年 扩展 明显 ， 原 因 是 强大 的 编程 平台 和 智能 手机 等 新 设 
备 为 快速 开发 应 用 并 将 其 投放 更 大 的 市 场 创造 了 新 机 会 。 还 有 一 群 人 运营 (operater) 或 管理 
(manage) 网 络 ， 这 多 半 是 幕后 工作 ,但 是 非常 关键 日 通常 很 复杂 。 随 着 家 庭 网 络 的 普及 
越 来 越 多 的 人 正在 变 成 某 种 意义 上 的 网 络 运营 者 。 最 后 ， 还 有 那些 设计 (design) 和 构建 
(build) 组 成 因特网 的 设备 和 协议 的 人 。 最 后 这 个 群体 是 网 络 教科 书 (如 本 书 ) 的 传统 目标 
读者 ， 本 书 将 继续 将 这 个 群体 作为 主要 关注 对 象 。 然 而 ,在 本 书 中 ,我 们 也 考虑 应 用 开发 者 
和 网 络 运 营 者 的 视角 。 考 虑 这 些 视角 能 够 使 我 们 更 好 地 理解 网 络 需 要 满足 的 不 同 需 求 。 应 用 
开发 者 如 果 能 够 理解 底层 技术 的 工作 原理 及 其 与 应 用 的 交互 方式 ， 他 们 就 能 开发 出 更 好 的 应 
用 。 所 以 ,在 理解 如 何 建造 网 络 之 前 ， 先 来 任 细 看 看 当今 网 络 所 支持 的 应 用 类 型 。 


应 用 分 类 


万 维 网 是 一 种 将 因特网 从 大 多 由 科学 家 和 工程 师 所 使 用 的 有 些 星 深 的 工具 跃升 为 当今 
主流 现象 的 因特网 应 用 。 万 维 网 已 经 变 成 了 一 个 如 此 强大 的 平台 ， 以 至 于 很 多 人 都 将 它 与 
因特网 混淆 了 (就 像 “Interwebs”)， 而 且 ， 将 万 维 网 看 作 一 个 单一 应 用 有 点 夸张 。 

万 维 网 采用 基本 形式 提供 了 一 个 直观 且 简 单 的 界面 。 用 户 浏览 有 很 多 文本 和 图 形 对 象 
的 网 页 时 ， 单 击 他 们 想 进一步 了 解 的 对 象 ， 就 会 弹出 相应 的 新 网 页 . 大 多 数 人 都 明白 在 这 
个 应 用 的 背后 ， 是 网 页 上 的 每 个 可 选 对 象 都 绑 定 了 一 个 指向 下 一 个 页 面 的 标识 wi 或 要 浏览 
的 对 象 。 这 个 标识 符 称 为 统一 资源 定位 符 (Uniform Resource Locator. URL). 它 提 供 了 
一 种 标识 所 有 通过 浏览 器 能 浏览 到 的 对 象 的 方法 。 举 个 例子 : http://www. cs. princeton. 
edu/ 一 llp/index. html。 这 是 本 书 一 名 作者 的 信息 页 面 的 URL: 字符 串 http 表明 要 下 载 页 面 
应 使 用 超 文 本 传输 协议 (Hyper Text Transfer Protocol. HTTP). www. cs. princeton. edu 是 
提供 该 网 页 的 计算 机 的 名 字 ， 而 一 llp/index. html 唯一 标识 Larry 在 该 网 站 的 主页 。 

然而 ， 大 多 数 用 户 并 不 清楚 ， 在 单 击 这 样 一 个 URL 后 ,在 因特网 上 可 能 需要 交换 多 
达 十 几 条 消息 ， 如 果 是 有 大 量 内 艇 对 象 的 复杂 网 页 ， 则 需要 交换 更 多 的 消息 。 这 些 消息 
中 , 6 条 消息 用 于 将 服务 器 名 (www. cs. princeton. edu) 翻译 成 它 所 对 应 的 网 际 协 议 
(Internet Protocol. IP) 地 址 (128. 112. 136. 35)，3 条 消息 用 于 建立 从 浏览 器 到 服务 器 之 
间 的 传输 控制 协议 (Transmission Control Protocol. TCP) 连接 . 4 条 消息 用 于 浏览 器 发 
送 HTTP 的 “GET” 请 求 ， 并 使 服务 器 回 送 被 请 求 的 页 面 (以 及 双方 确认 收 到 消息 )， 还 
有 4 条 消息 用 于 拆除 TCP 连接 。 当 然 ， 这 不 包含 因特网 节点 全 天 交换 的 数 以 百 万 计 的 消 
息 ， 这些 消 息 只 是 让 节点 相互 知道 彼此 的 存在 ， 并 准备 提 供 网 页 服务 ， 把 机 器 名 翻译 成 网 
络 地 址 ， 并 将 各 种 消息 向 它们 的 最 终 目的 地 转发 。 

另 一 类 普及 的 因特网 应 用 是 音频 流 和 视频 流 的 传播 ， 视 频 点 播 和 因特网 收音 机 这 类 服 
务 就 使 用 了 这 种 技术 。 虽 然 我 们 经 常 从 网 站 上 发 起 流 会 话 ， 但 传播 音频 和 视频 与 获取 由 文 
本 及 图 片 组 成 的 网 页 存在 一 些 重 要 的 区 别 。 例 如 ， 用 户 一 般 不 想 下 载 完整 个 视频 文件 〈 这 
个 过 程 需要 几 分钟 到 几 小 时 ) 才 开 始 观看 。 以 流 的 方式 传输 音频 和 视频 意味 着 以 一 种 更 有 
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时 效 性 的 方式 从 发 送 方向 接收 方 传输 消息 ,接收 方 可 以 在 收 到 消息 后 立即 播放 视频 或 音频 。 

注意 ， 流 式 应 用 与 传统 的 网 页 文本 或 静态 图 片 传 输 的 区 别 是 ， 人 们 以 连续 的 方式 欣赏 
音频 流 和 视频 流 ， 跳 音 或 视频 停滞 等 间断 是 不 能 接受 的 。 相 比 之 下 . 文本 网 页 可 以 以 位 或 
块 为 单位 来 传输 和 阅读 。 这 种 区 别 会 影响 网 络 对 不 同类 型 应 用 的 支持 方式 。 

一 种 略 有 不 同 的 应 用 类 型 是 实时 音频 和 视频 。 这些 应 用 比 流 应 用 有 更 严格 的 时 间 约 
R. or 用 时 ， ri 
的 。 一 端的 用 户 做 一 个 动作 ， 这 个 动作 必须 尽快 显示 在 另 一 端 。 当 一 个 人 试图 打 断 另 一 
Jane ee ee aaa 
在 这 种 环境 下 , 太 长 的 延迟 会 导致 系统 无 法 使 用 。 与 视频 点 播 相 比 ， 如 果 从 用 户 打 开 视 频 
到 第 一 幅 图 像 被 显示 出 来 用 了 几 秒 钟 ， 那 么 这 个 服务 仍 可 接受 。 此 外 ， 交互 式 应 用 通常 需 
要 有 双向 流动 的 音频 或 视频 ， 而 流 式 应 用 则 大 多 只 向 一 个 方向 发 送 音 频 或 视频 。 

因特网 上 运行 的 视频 会 议 工 具 在 20 世纪 90 年 代 早 期 就 开始 出 现 了 ,但 直到 过 去 几 年 
里 才 得 到 广泛 的 普及 .因为 网 速 更 快 ， 更 强大 的 计算 机 也 更 加 普及 。 图 1-1 显示 了 一 个 视 

会 议 系统 的 例子 。 就 像 下 载 网 页 不 只 是 满足 视觉 需要 一 样 ， 视 频 应 用 也 是 这 样 。 例 如 ， 
POATE SHE EAE ISR HENS. 或 者 确保 视频 和 音频 保持 同步 并 及 时 到 达 来 得 到 较 
好 的 用 户 体验 ， 这些 都 是 网 络 和 协议 设计 者 不 得 不 考虑 的 问题 。 我 们 将 在 本 书 的 后 面 考察 
这 些 问题 ， 以 及 很 多 与 多 媒体 应 用 相关 的 其 他 问题 
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图 1-1 一 个 包含 视频 会 议 的 多 媒体 应 用 


尽管 这 只 是 两 个 例子 ,但 从 网 上 下 载 页 面 和 参加 视频 会 议 是 以 说 明 因 特 网 应 用 的 多 样 





O 不 完全 是 “ 越 快 越 好 ”"， 人 类 因素 研究 表明 ，300ms 是 打 电 话 时 人 类 能 够 忍受 的 往返 时 延 的 合理 上 限 ， 超 过 这 
cig -y 人 们 就 要 抱怨 了 ，100ms 的 时 延 看 起 来 更 好 。 





性 ， 也 暗示 了 因特网 设计 的 复杂 性 。 我 们 将 在 后 面 描述 一 个 更 完整 的 应 用 分 类 ,来 指导 我 
们 讨论 关键 的 设计 决策 ， 从 而 建造 、 运 营 和 使 用 能 够 支持 大 量 不 同 应 用 的 网 络 。 第 9 章 作 
为 全 书 的 结束 部 分 ,将 重新 讨论 这 两 种 特定 的 应 用 以 及 其 他 几 种 在 当今 因特网 上 流行 的 应 
用 。 现 在 ,快速 浏览 几 个 典型 应 用 就 是 以 让 我 们 开始 考察 为 了 建造 支持 多 种 应 用 的 网 络 所 
必须 解决 的 问题 ,9 


1.2 需求 

我 们 已 经 制定 了 一 个 宏伟 的 目标 : 了 解 如 何 从 最 底层 开始 建造 一 个 计算 机 网 络 。 要 实 
现 这 个 目标 ,我 们 将 从 基本 原理 开始 ， 然 后 提出 在 建造 实际 网 络 时 经 常 遇 到 的 各 种 问题 ， 
在 每 一 步 中 ， 我 们 会 利用 现 有 协议 说 明 各 种 可 行 的 设计 方案 . 但 是 并 不 将 这 些 人 工 设计 的 
协议 视 作 不 变 的 真理 。 相 反 ， 我 们 还 要 不 断 地 提出 (并 回答 ) 网 络 为 什么 (why) 要 如 此 
设计 的 问题 。 在 力求 理解 现今 网 络 的 工作 方式 的 同时 ， 重 要 的 是 认识 基本 概念 ， 因 为 随 着 
技术 的 发 展 和 新 应 用 的 不 断 出 现 ， 网 络 的 变化 日 新 月 异 。 依照 我 们 的 经 验 ， 一 旦 人 们 理解 
了 基本 思想 ， 那 么 对 于 遇 到 的 任何 新 协议 ， 消 化 和 吸收 起 来 都 将 变 得 相对 容易 。 


1.2.1 视角 
如 前 所 述 ， 学 习 网 络 的 人 有 不 同 的 视角 。 当 我 们 写本 书 第 1 版 时 ， 大 部 分 人 根本 不 能 
访问 因特网 ， 那 些 能 访问 因特网 的 人 都 是 在 工作 时 、 在 大 学 里 或 在 家 里 通过 拨号 调制 解 调 
吉 来 访问 ， 流 行 的 应 用 也 屈指 可 数 。 因 此 ， 就 像 当 时 的 大 部 分 教材 一 样 .我 们 的 书 重点 关 
注 设计 联网 设备 和 协议 的 人 。 现 在 我 们 继续 关注 这 个 视角 ， 希望 大 家 在 阅读 本 书后 明白 如 
何 设计 未 来 的 联网 设备 和 协议 。 但 是 ,我 们 也 想 覆 盖 另 外 两 个 越 来 越 重要 的 样 体 的 视角 : 
开发 网 络 应 用 的 人 以 及 管理 或 运营 网 络 的 人 。 让 我 们 想 一 下 这 三 个 群体 会 如 何 列 举 他 们 对 
网 络 的 需求 : 
。 应 用 程序 员 (application programmer) 会 列 出 应 用 所 需 的 服务 ， 例如， 要 保证 应 
用 程序 发 出 的 每 条 信息 能 在 一 定 的 时 间 内 准确 无 误 地 传递 ,或 随 着 用 户 的 移动 在 
不 同 的 网 络 连接 之 间 平 稳 切 换 的 能 力 。 
。 网 络 运营 者 (network operator) 会 列 出 系统 易于 管理 的 特性 ， 例如， 故障 易于 陋 
离 、 新 设备 能 够 加 入 到 网 络 中 并 正确 配置 、 易 于 根据 网 络 使 用 情况 进行 计 费 。 
。 网 络 设计 者 (network designer) 会 列 出 性 价 比 高 的 设计 所 有 具备 的 属性 ， 例 如 ， 有 
效 地 利用 网 络 资源 和 公平 地 分 配给 不 同 的 用 户 。 性 能 问题 可 能 也 很 重要 。 
本 节 试 图 将 这 些 不 同 视角 提升 成 关于 驱动 网 络 设 计 的 主要 关注 点 的 一 个 高 层次 的 概 
述 ， 同 时 间 明 本 书 所 要 解决 的 挑战 。 


1.2.2 可 扩展 的 连通 性 

很 明显 ， 网 络 必须 首先 提供 若干 个 计算 机 之 间 的 连通 性 。 有 时 候 ， 只 需要 建立 一 个 由 
选 定 的 几 台 计算 机 连 成 的 有 限 网 络 。 但 事实 上 ， 鉴 于 隐私 性 和 安全 性 的 考虑 ,许多 专用 的 
(企业 的 ) 网 络 都 在 限制 接 入 网 络 的 计算 机 方面 有 明确 的 目标 。 相 反 ， 其 他 一 些 网 络 (办 
特 网 是 最 明显 的 例子 ) 则 具有 连 人 世界 上 所 有 计算 机 的 潜力 。 如 果 一 个 系统 设计 支持 任意 





O 参见 “实验 基础 "。 
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规模 的 扩展 ， 则 称 为 可 扩展 的 〈scale) 。 本 书 以 因特网 为 模型 来 解决 可 扩展 性 方面 的 挑战 。 

链 路 、 节 点 和 云 形 图 

为 了 更 全 面 地 理解 连通 性 需求 ， 我 们 需要 更 仔细 地 考察 计算 机 是 如 何 连接 到 网 络 的 。 
网 络 连通 性 体现 在 多 个 层次 上 。 在 最 底层 ， 网 络 可 以 由 两 台 或 更 多 台 计 算 机 通过 某 种 物理 
介质 〈 如 同 轴 电 缆 或 光纤 ) 直接 相连 。 我 们 称 这 样 的 物理 介质 为 链 路 Clink), 并 称 被 连接 
的 计算 机 为 节点 (node)。( 有 时 候 ， 节 点 是 指 更 为 特殊 的 硬件 而 不 是 指 计算 机 ， 这 种 区 别 
我 们 通常 不 予 区 分 。) 如 图 1-2 所 示 ， 有 时 一 条 物理 链 路 仅 存 在 于 一 对 节点 之 间 (这 样 的 
链 路 称 为 点 到 点 (point-to-point) 链 路 ) ， 而 在 其 他 情况 下 ， 多 个 节点 可 以 共享 一 条 物理 
HERS 〈 这 样 的 链 路 称 为 多 路 访问 Gmultiple-access) 链 路 ) 。 无 线 链 路 ， 如 蜂窝 网 络 和 Wi- 
Fi 网 络 提供 的 链 路 ， 成 为 越 来 越 重 要 的 多 路 访问 链 路 。 通 常情 况 下 ， 多 路 访问 链 路 的 大 小 
是 有 限 的 ,包括 它 们 所 能 畴 盖 的 地 理 范 围 和 所 能 连接 的 节点 数目 。 


a) 点 到 点 














b) 多 路 访问 
图 1-2 直接 链 路 


如 果 计 算 机 网 络 被 局 限于 所 有 节点 都 通过 一 个 公共 的 物理 介质 彼此 直接 相连 的 情况 ， 
那么 ， 要么 网 络 所 能 连接 的 计算 机 数目 非常 有 限 ， 要 么 从 每 个 节点 引出 的 线路 数目 很 快 会 
变 得 难以 控制 且 代价 高 昂 。 幸 运 的 是 两 个 节点 之 间 的 连通 性 并 不 一 定 意味 着 它们 之 间 有 直 
接 的 物理 连接 ， 通 过 一 系列 合作 节点 可 以 实现 间接 的 连通 性 。 下 面 两 个 例子 说 明了 一 组 计 
算 机 是 如 何 间接 连通 的 。 

图 1-3 显示 了 一 组 节点 ， 每 个 节点 都 连 到 一 条 或 多 条 点 到 点 链 路 上 。 那 些 连 着 至 少 两 
条 链 路 的 节点 运行 软件 ， 用 于 将 从 一 条 链 路 收 到 的 数据 转发 到 另 一 条 链 路 上 。 如 果 将 这 些 
节点 按 系 统 化 的 方法 进行 组 织 ， 就 形成 一 个 交换 网 (switched network)。 交 换 网 有 很 多 种 
类 型 ， 电 路 交换 (circuit switched) 和 分 组 交换 (packet switched) 是 其 中 最 为 常见 的 两 
种 。 前 者 主要 用 于 电话 系统 ， 而 后 者 用 于 绝 大 多 数 的 计算 机 网 络 ， 本 书 将 侧重 后 者 。 (但 
是 ， 电 路 交换 在 光 网 络 领 域 将 要 东山 再 起 ， 因 为 对 网 络 容 量 需求 的 不 断 增加 使 得 电路 交换 
变 得 更 重要 。) 分 组 交换 网 最 主要 的 特点 是 网 络 中 的 节点 彼此 间 发 送 离 散 的 数据 块 。 可 以 
将 这 些 数据 块 看 作 应 用 数据 ， 如 一 个 文件 、 一 封 电子 邮件 或 一 幅 图 像 。 我 们 将 每 个 数据 块 
称 为 一 个 分 组 (packet) 或 一 条 消息 (message)， 目 前 这 两 个 术语 可 以 互 换 使 用 ， 但 它们 
也 不 是 完全 相同 ， 我 们 将 在 1. 2. 3 节 讨 论 原因 。 

分 组 交换 网 一 般 使 用 一 种 叫 作 存储 转发 (store-and-forward) 的 策略 。 顾 名 思 义 ， 存 
储 转 发 网 络 中 的 每 个 节点 先 通过 某 条 链 路 接收 一 个 完整 的 分 组 ， 将 这 个 分 组 存储 在 内 存 
中 ， 然 后 将 整个 分 组 转发 给 下 一 个 节点 。 与 之 不 同 的 是 ， 电 路 交换 网 首先 通过 一 系列 链 路 
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图 1-3 交换 网 


建立 一 条 专用 电路 ， 然 后 允许 源 节 点 通过 这 条 链 路 将 比特 流 发 送 到 目标 节点 。 在 计算 机 网 
络 中 使 用 分 组 交换 而 不 使 用 电路 交换 的 主要 原因 是 分 组 交换 效率 较 高 ， 这 个 问题 将 在 下 一 
节 讨 论 。 

图 1-3 中 的 云 形 图 将 实现 (implement) 网 络 的 内 部 节点 (内 部 节点 通常 称 为 交换 机 
(switch)， 其 基本 功能 是 存储 和 转发 分 组 ) 与 使 用 (use) 网 络 的 外 部 节点 (外 部 节点 通常 
称 为 主机 (host)， 其 任务 是 支持 用 户 并 运行 应 用 程序 ) 区 分 开 来 。 还 要 注意 ,图 1-3 中 的 
云 形 图 是 计算 机 网 络 中 最 重要 的 图 标 之 一 。 一 般 来 讲 ， 我 们 可 以 利用 云 形 图 表示 任何 类 型 
的 网 络 ， 即 无 论 网 络 是 一 条 点 到 点 链 路 、 一 条 多 路 访问 链 路 或 是 一 个 交换 网 。 因 此 ， 无 论 
何 时 在 图 上 看 到 云 形 图 ， 都 可 以 把 它 看 作 本 书 讨论 的 任意 一 种 网 络 技 术 的 表示 。? 

计算 机 间接 连通 的 另 一 种 方法 如 图 1-4 所 示 。 在 这 种 情况 下 ,一些 独立 的 网 络 
( 云 ) 互联 形成 一 个 互联 网 (internetwork， 简 称 internet)。 我 们 依照 因特网 的 习惯 ， 将 
通称 的 互联 网 用 “i 开头 的 internet 表示 ， 而 将 当前 运行 的 TCP/IP 因特网 用 “I” 开 头 
的 Internet 表示 。 连 接 到 两 个 或 多 个 网 络 的 节点 通常 称 为 路 由 器 (router) 或 网 关 (gate- 
way) ， 它 与 交换 机 所 起 的 作用 大 致 相同 ， 即 把 消息 从 一 个 网 络 转发 到 另 一 个 网 络 。 注 
意 ， 互 联网 本 身 可 被 看 作 是 另 一 种 类 型 的 网 络 ， 也 就 是 说 ， 一 个 互联 网 可 由 多 个 互联 网 互 
联 而 成 。 这 样 ， 我 们 可 以 通过 将 云 互联 成 更 大 的 云 来 递归 地 构建 任意 大 的 网 络 。 可 以 认为 
将 区 别 很 大 的 网 络 互联 起 来 的 思想 是 因特网 的 根本 性 创新 ， 早 期 因特网 架构 师 所 做 的 优秀 
的 设计 决策 使 因特网 成 功 扩展 到 全 球 规模 ， 并 拥有 几 十 亿 个 节点 ， 这 些 我 们 将 在 后 面 进行 


讨论 。 





昌 有 趣 的 是 ， 这 种 使 用 云 的 方式 比 云 计 算 这 个 术语 早 至 少儿 十 年 ， 但 两 种 用 法 之 间 是 有 关联 的 ， 我 们 将 在 后 面 
讨论 。 ` 
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图 1-4 网 络 的 互联 
连通 性 的 最 终 要 求 是 每 个 节点 
每 个 他 4 
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仅仅 将 主机 彼此 直接 或 间接 相连 并 不 意味 着 已 经 成 功 地 提供 了 主机 到 主机 的 连通 性 ， 
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必须 能 够 指明 它 想 与 网 络 上 哪些 其 他 节点 进行 通信 。 通 过 给 
各 指定 一 个 地 址 (address) 可 以 做 到 这 一 点 。 地 址 是 标识 节点 的 字 节 串 ， 也 就 是 说 ， 
网 络 可 以 使 用 节点 地 址 来 区 分 该 节点 与 连接 到 网 络 的 其 他 

一 条 消息 给 一 个 特定 的 目的 节点 
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当 一 个 源 节点 通过 网 络 传输 
时 ， 它 必须 指明 目的 节点 的 地 址 。 如 果 发 送 和 接收 节点 不 是 
直接 相连 的 ， 那 么 网 络 上 的 交换 机 和 路 由 器 将 使 用 这 个 地 址 来 确定 如 何 将 消息 转发 到 目标 节 
根据 目的 节点 地 址 来 确定 如 何 将 消息 转发 到 目的 节点 的 过 程 称 为 路 由 (routing). 
上 述 关 于 寻 址 和 路 由 的 简介 


假设 源 节点 要 发 送 消 息 给 单个 目的 节点 ( 单 播 Cuni- 
cast))。 人 尽管 这 种 情况 最 常见 ,但 源 节点 也 可 能 向 网 络 上 的 所 有 节点 广播 (broadcast) 一 
条 消息 ,或 者 源 节 点 要 发 一 条 消息 给 其 他 节点 的 某 个 子 集 ， 而 并 非 所 有 节点 ,这 种 情况 称 
为 多 播 (multicast) 。 因 此 ， 除 了 特定 节点 的 地 址 以 外 ， 网 络 的 另 一 个 需求 是 支持 多 播 地 
址 和 广播 地 址 。 

结论 ”通过 以 上 讨论 


我 们 可 以 将 网 络 递归 地 定义 为 通过 一 条 物理 链 路 相连 的 两 

个 或 多 个 节点 ， 或 者 说 通过 一 个 节点 连接 的 两 个 或 多 个 网 络 。 换 言 之 ， 网 络 可 以 

由 网 络 的 能 套 来 构成 ， 在 最 底层 ， 网 络 由 某 种 物理 介质 实现 。 实 现 计 算 机 网 络 连 

通 性 的 一 个 关键 是 为 网 络 中 的 每 个 可 达 节 点 定义 一 个 地 址 (包括 支持 广播 和 多 
Ab 


播 )， 并 且 能 够 利用 这 个 地 址 将 消息 发 往 正 确 的 目的 节点 。 
1.2.3 高 性 价 比 的 资源 共享 
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如 上 所 述 ， 本 书 侧重 介绍 分 组 交换 网 。 本 节 讲 解 计 算 机 网 络 的 关键 需求 一 一 效率 ， 这 
是 我 们 选择 分 组 交换 策略 的 直接 原因 。 
给 是 Pa 全 


-个 节点 的 集合 ， 节 点 之 间 通 过 一 个 嵌 套 的 网 络 间接 相连 ， 任 何 一 对 主机 都 可 能 
通过 一 系列 链 路 和 节点 互相 发 送 消 息 。 当 然 ， 我 们 不 仅仅 需要 支持 一 对 主机 之 间 的 通信 ， 
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主机 都 能 共享 网 络 ， 特 别 是 如 果 它 们 想 同 时 使 用 网 络 时 如 何 共 享 ， 假如 这 个 问题 还 不 太 难 
解决 ,那么 当 多 个 主机 需要 同时 使 用 同一 条 链 路 〈link) 时 ， 应 该 如 何 实现 共享 ? 

为 了 弄 清 楚 主 机 如 何 共享 一 个 网 络 ， 我 们 震 要 引入 一 个 基本 概念 一 一 多 路 复 用 Cmui- 
tiplexing)， 意 思 是 系统 资源 在 多 个 用 户 之 间 共 享 。 直 观 上 可 将 多 路 复 用 与 一 个 分 时 计算 
机 系统 类 比 ， 一 个 物理 CPU 被 多 个 任务 共享 (多 路 复 用 )， 每 个 任务 都 认为 它 有 自己 的 专 
用 处 理 器 。 同 样 ， 由 多 个 用 户 发 送 的 数据 可 在 构成 网 络 的 多 条 物理 链 路 上 被 多 路 复 用 . 

为 了 理解 多 路 复 用 如 何 工作 ， 考 察 图 1-5 所 示 的 简单 网 络 ， 网 络 左边 的 3 台 主 机 (发 
送 方 SI 一 S3) 通过 共享 一 个 只 包含 一 条 物理 链 路 的 网 络 向 网 络 右边 的 3 台 主 机 (接收 方 
RI~R3) 发 送 数据 。 (为 简单 起 见 ， 假 设 主机 S1 与 主机 Rl 通信， 依 此 类 推 ,) 在 这 种 情 
况 下 ， 对 应 于 3 对 主机 的 3 个 数据 流通 过 交换 机 1 多 路 复 用 1 条 物理 链 路 ， 然 后 再 由 交换 
机 2 多 路 分 解 (demultiplex) 为 独立 的 数据 流 。 注 意 ， 我 们 有 意 对 “数据 流 ” 的 确切 含义 
含糊 其 辞 。 为 了 便于 讨论 ， 假设 左边 的 每 台 主机 有 大 量 的 数据 要 发 送 到 右边 对 应 的 主机 。， 
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将 多 个 数据 流 多 路 复 用 到 一 条 物理 链 路 上 有 几 种 不 同 的 方法 。 一 种 常用 的 方法 是 同步 
时 分 多 路 复 用 (synchronous time-division multiplexing. STDM)。STDM 的 思想 是 将 时 间 
划分 为 等 长 的 时 间 片 ， 以 轮转 方式 使 每 个 数据 流 都 有 机 会 将 数据 发 送 到 物理 链 路 上 。 换 言 
之 ， 在 时 间 片 1 中 ,传输 从 Sl 发 到 RI 的 数据 ; 在 时 间 片 2 中 ,传输 从 S2 发 到 R2 的 数 
据 ; 时 间 片 3 传输 从 S3 发 到 R3 的 数据 ， 同 时 ， 从 Sl1 到 RI 的 数据 流 再 次 准备 开始 传输 ， 
这 个 过 程 不 断 重 复 进行 。 男 一 种 方法 是 频 分 多 路 复 用 (frequency-division multiplexing, 
FDM), FDM 的 思想 是 将 每 个 流 以 不 同 的 频率 发 向 物理 链 路 ， 这 一 点 与 不 同 电视 台 以 不 同 
频率 在 电波 上 或 在 同 轴 电 缆 电 视 链 路 中 传输 电视 信号 很 相像 。 

尽管 原理 很 容易 理解 ,但 STDM 和 FDM 都 有 两 个 方面 的 局 限 性 。 第 一 ， 如 果 有 一 个 
流 ( 主 机 对 ) 没有 数据 要 发 送 ， 它 占用 的 物理 链 路 〈 即 它 的 时 间 片 或 频率 ) 就 会 空 闻 ， 即 
使 其 他 流 此 时 有 数据 要 发 送 也 无 法 使 用 。 例 如 ， 上 例 中 的 S3 必须 要 排 在 S1 和 S2 后 面 发 
送 数据 ， 即 使 S1 和 S2 没有 数据 要 发 送 。 对 于 计算 机 通信 来 说 ， 一 条 链 路 空闲 的 时 间 可 能 
会 很 长 ， 例 如 ， 与 获取 页 面 的 时 间 相 比 ， 阅 读 Web 页 面 的 时 间 较 长 ， 而 在 阅读 页 面 时 ， 
链 路 是 空闲 的 。 第 二 ，STDM 和 FDM 所 容纳 的 数据 流 的 最 大 数目 是 事先 固定 和 已 知 的 。 
在 STDM 的 情况 下 ， 修 改 时 间 片 的 大 小 、 添 加 额外 的 时 间 片 或 在 FDM 情况 下 加 入 新 频 
率 ， 都 是 不 实际 的 。 
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克服 上 述 不 足 的 多 路 复 用 形式 ， 也 是 本 书 使 用 最 多 的 多 路 复 用 形式 是 统计 多 路 复 用 
(statistical multiplexing)。 尽 管 这 个 名 字 本 身 令 人 费解 ， 但 统计 多 路 复 用 实际 上 非常 简 
单 ， 它 包括 两 个 关键 的 思想 。 首 先 ， 像 STDM 一 样 ， 它 是 按照 时 间 来 共享 物理 链 路 的 ， 
一 个 流 的 数据 先 被 传输 到 物理 链 路 上 ， 然 后 再 传输 另 一 个 流 的 数据 ， 依 此 类 推 。 然 而 ， 不 
同 于 STDM 的 是 ， 每 个 流 的 数据 是 根据 需要 传输 的 , .而 不 是 在 一 个 预先 规定 的 时 间 片 进 
行 传输 。 这 样 。 如 果 只 有 一 个 流 有 数据 要 发 送 ， 那 么 它 不 必 等 到 它 的 时 间 片 到 来 就 可 以 发 
送 数据 ， 这样 ， 也 就 不 会 出 现 分 配给 其 他 流 的 时 间 片 白白 浪费 的 情况 。 正 是 这 种 避免 空闲 
时 间 的 方法 使 分 组 交换 具有 较 高 的 效率 。 

然而 .截至 目前 的 定义 . 统计 多 路 复 用 没有 这 样 的 机 制 用 以 保证 所 有 流 最 终 都 有 机 会 
在 物理 链 路 上 传输 数据 。 也 就 是 说 ,一 旦 一 个 流 开 始 发 送 数 据 ， 我 们 需要 采用 某 种 方法 来 
限制 它 的 发 送 ， 使 得 其 他 流 能 够 有 机 会 传输 数据 。 考 虑 到 这 种 需求 ， 统 计 多 路 复 用 定义 每 
个 流 在 给 定 的 时 间 内 允许 传输 的 数据 块 大 小 的 上 界 。 这 个 限定 大 小 的 数据 块 通常 称 为 一 个 
分 组 (packet)， 用 以 与 应 用 程序 可 能 传输 的 任意 大 小 的 消息 (message) (FRA. AA 
组 交换 网 限制 分 组 的 最 大 尺寸 ， 所 以 主机 可 能 无 法 用 一 个 分 组 发 送 一 条 完整 的 消息 。 源 节 
点 可 能 需要 将 消息 分 划 为 几 个 分 组 ， 接 收 者 再 把 这 些 分 组 重新 组 装 成 原始 消息 。 

换言之 ， 每 个 流通 过 物理 链 路 发 送 一 系列 分 组 ， 以 分 组 为 单位 决定 下 一 次 发 送 分 组 的 
iit. 注意 ， 如 果 只 有 一 个 流 有 数据 要 发 送 ， 它 可 以 连续 地 发 送 一 个 分 组 序列 。 然 而 ， 如 果 
有 多 个 流 要 发 送 数据 ， 那 么 ， 它 们 的 分 组 将 会 在 链 路 上 交替 发 送 。 图 1-6 描述 了 一 个 交换 
机 将 来 自 多 个 源 节 点 的 分 组 多 路 复 用 到 一 条 共享 链 路 上 。 





图 1-6 交换 机 将 来 自 多 个 源 节 点 的 分 组 多 路 复 用 到 一 条 共享 链 路 上 


确定 在 一 个 共享 链 路 上 发 送 哪 一 个 分 组 有 多 种 不 同 的 方法 。 如 图 1-5 所 示 ， 在 由 通过 
链 路 互联 的 交换 机 构成 的 网 络 中 ， 可 以 由 将 分 组 发 送 到 共享 链 路 上 的 交换 机 来 决定 发 送 分 
组 的 顺序 。( 正 如 我 们 下 面 将 要 看 到 的 ， 并 不 是 所 有 的 分 组 交换 网 都 包含 交换 机 ， 还 可 以 
用 其 他 机 制 来 决定 下 一 步 将 哪个 数据 流 的 分 组 送 到 链 路 上 。) 在 分 组 交换 网 中 ， 每 个 交换 
机 都 能 以 分 组 为 单位 独立 地 决定 发 送 顺 序 。 网 络 设计 者 面 对 的 问题 之 一 是 如 何以 一 种 公 
的 方式 来 做 决定 。 例 如 ， 一 个 交换 机 可 以 设计 成 以 先进 先 出 〈FIFO) 的 方式 发 送 分 组 。 
另 一 种 设计 是 交换 机 以 循环 方式 转发 来 自 通过 该 交换 机 发 送 数 据 的 每 一 个 不 同 的 数据 流 的 
分 组 。 这 样 做 可 以 确保 特定 的 数据 流 能 分 享 链 路 的 一 定 带宽 ， 或 者 确保 它们 的 分 组 在 交换 
机 中 的 延迟 不 会 超过 一 段 确 定 的 时 间 。 能 够 为 特定 数据 流 分 配 带宽 的 计算 机 网 络 有 时 称 为 
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支持 服务 质量 (Quality of Service, QoS). 我 们 将 在 第 6 章 讨 论 这 个 主题 
男 外 ， 值 得 注意 的 是 ， 在 图 1-6 中 ， 由 于 交换 机 必须 把 三 个 进入 的 分 组 流 多 路 复 用 到 
一 条 输出 链 路 上 ， 所 以 交换 机 接收 分 组 的 速度 很 有 可 能 比 共享 链 路 传输 分 组 的 速度 快 。 此 
时 ， 交 换 机 不 得 不 将 分 组 缓存 在 内 存 中 。 如 果 在 较 长 的 一 段 时 间 内 ， 交 换 机 接收 分 组 的 速 
度 比 它 发 送 分 组 的 速度 快 ， 那 么 交换 机 将 最 终 耗 尽 其 缓存 空间 ， 一 些 分 组 就 不 得 不 被 和 于 
弃 。 当 交换 机 处 于 这 种 状态 时 ， 称 为 拥塞 (congested). 
结论 最 重要 的 是 ,统计 多 路 复 用 定义 了 一 种 有 效 的 方法 让 多 个 用 户 (例如 主机 
到 主机 的 数据 流 ) 以 细 粒 度 的 方式 共享 网 络 资源 ( 链 路 和 节点 )。 它 以 分 组 粒度 
将 网 络 链 路 分 配给 不 同 的 数据 流 ， 每 个 交换 机 能 够 以 分 组 为 单位 来 规划 如 何 使 用 
与 之 相连 的 物理 链 路 。 为 不 同 的 数据 流 公平 分 配 链 路 容量 以 及 处 理 拥塞 是 统计 多 
路 复 用 面临 的 主要 挑战 。 


相关 主题 

SAN、LAN、MAN 和 WAN 

描述 网 络 的 一 种 方式 是 根据 其 大 小 。 两 个 著名 的 例子 是 局 域 网 CLAN) 和 和 广域网 
(WAN)。 前 者 的 范围 通常 用 在 1 公里 以 内 ， 而 后 者 则 可 以 是 世界 范围 的 。 其 他 网 络 被 归 
KARA (MAN), 通常 跨越 几 十 公里 。 这 种 划分 非常 有 趣 ， 原 因 是 网 络 的 大 小 通常 巴 
示 着 它 能 使 用 的 底层 技术 ,其 中 一 个 关键 因素 是 数据 从 网 络 的 一 端 传播 到 另 一 端 所 花 的 时 
间 。 我 们 将 在 后 面 几 章 中 更 详细 地 讨论 这 个 问题 。 

根据 有 趣 的 历史 记录 记载 ,广域网 (wide area network) 这 个 术语 并 没有 用 在 第 一 个 
WAN 上 ， 因 为 当时 没有 其 他 类 型 的 网 络 需要 与 之 区 分 。 当 时 计算 机 非常 少 并 且 也 较 昂 
贵 ， 人 们 从 没 想到 过 将 局 部 范围 内 的 所 有 计算 机 连 在 一 起 ， 因 为 在 那个 范围 内 只 有 一 人 台 计 
算 机 。 只 有 当 计 算 机 开始 增多 ， 需 要 有 LAN H, “WAN” 这 个 术语 才 被 引入 ， 用 来 描述 
将 地 理 位 置 较 远 的 计算 机 互联 起 来 的 更 大 的 网 络 。 

另 一 种 我 们 需要 了 解 的 网 络 是 SAN (现在 称 为 存储 区 域 网 (storage area network). 
但 以 前 也 被 称 为 系统 区 域 网 (System area network))。SAN 通常 限制 在 一 个 房间 里 ， 并 且 
把 一 个 大 的 计算 系统 的 各 种 组 件 连接 起 来 。 例 如 ， 光 纤 信 道 是 一 种 常见 的 SAN 技术 ， 用 
来 将 高 性 能 计算 系统 连接 到 存储 服务 器 和 数据 仓库 上 。 尽 管 本 书 没有 详细 地 描述 这 类 网 
络 ,， 但 了 解 它们 还 是 很 有 意义 的 ， 因 为 它们 通常 在 性 能 方面 引领 潮流 ,而 且 将 这 类 网 络 连 
入 LAN 或 WAN 的 情况 也 越 来 越 多 。 





1.2.4 支持 通用 服务 

前 一 节 概 述 了 在 一 组 主机 间 提 供 高 性 价 比 的 连通 性 所 面临 的 挑战 ， 但 是 ， 将 计算 机 网 
络 仅 视 作 是 在 一 系列 计算 机 之 间 传 输 分 组 未 免 过 于 简单 。 更 准确 地 说 ， 应 该 将 计算 机 网 络 
视 为 能 够 为 分 布 在 这 些 计算 机 上 的 一 系列 应 用 进程 提供 彼此 通信 的 手段 。 换 言 之 ， 计算 机 
网 络 的 下 一 个 需求 是 让 连接 到 网 络 中 的 主机 上 运行 的 应 用 程序 能 够 以 一 种 有 意义 的 方式 进 
行 通信 。 从 应 用 开发 者 的 角度 来 看 ， 网 络 应 该 使 其 生活 更 美好 。 

当 两 个 应 用 程序 需要 彼此 通信 时 ， 并 不 仅仅 是 主机 间 的 消息 传输 ， 而 要 涉及 很 多 复杂 
的 过 程 。 一 种 选择 是 应 用 程序 设计 者 把 所 有 复杂 的 功能 都 集成 在 每 个 应 用 程序 中 。 然 而， 
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由 于 很 多 应 用 需要 通用 的 服务 ， 所 以 更 明智 的 做 法 是 一 次 性 地 实现 这 些 通 用 服务 ， 然 后 应 
用 设计 者 再 用 这 些 服 务 构建 所 需 的 应 用 。 如 何 确定 正确 的 通用 服务 集 是 网 络 设 计 者 面临 的 
一 个 挑战 ， 其 目标 是 对 应 用 隐藏 网 络 的 复杂 性 但 也 不 过 分 限制 应 用 设计 者 。 

直观 地 讲 ， 我 们 将 网 络 视 作 为 应 用 层 进程 提供 逻辑 信道 channel)， 使 得 它们 能 够 基 
于 迪 辑 信道 相互 通信 ， 每 个 信道 提供 应 用 程序 所 需 的 服务 集 。 换 言 之 正如 我 们 用 云 抽象 
地 表示 计算 机 之 间 的 连通 性 一 样 ， 现 在 ， 我 们 将 信道 视 作 一 个 进程 与 另 一 个 进程 的 连接 通 
道 。 图 1-7 显示 了 一 对 应 用 层 进 程 在 多 辑 信道 上 通信 的 情况 ， 逻辑 信道 是 在 连接 主机 的 网 
络 ( 云 ) 上 实现 的 。 我 们 可 以 把 信道 看 成 连接 两 个 应 用 程序 的 一 条 管道 ， 发 送 应 用 程序 把 
数据 放 在 管道 的 一 端 ， 并 希望 数据 能 被 网 络 传输 给 位 于 管道 男 一 端的 应 用 程序 。 


主机 | 


主机 主机 


图 1-7 在 抽象 信道 上 进行 通信 的 进程 


确定 信道 应 该 给 应 用 程序 提供 什么 功能 是 当前 面临 的 挑战 。 例 如 ,应 用 是 否 需 要 保证 
在 信道 上 发 送 的 消息 被 可 靠 地 传输 ,或 者 说 是 否 允 许 丢 失 某 些 消息 ?应 用 要 求 消息 必须 按 
它们 发 送 时 的 顺序 到 达 接 收 进程 ， 还 是 接收 者 并 不 关心 消息 到 达 的 顺序 ?网络 需 要 保证 没 
有 第 三 方 在 信道 上 窃听 , 还 是 并 不 在 意 隐 私 问 题 ? 总 之 ， 网 络 提供 各 种 不 同类 型 的 信道 ， 
每 个 应 用 选择 它 所 需要 的 类 型 。 下 面 将 说 明定 义 有 用 信道 的 设计 思路 。 

1. 确定 通用 通信 模式 

设计 抽象 信道 首先 需要 理解 一 些 典 型 应 用 的 通信 需求 ， 然 后 提取 出 它们 共同 的 通信 需 
求 ， 最 后 具体 化 为 网 络 中 符合 这 些 需 求 的 功能 。 

最 早 被 所 有 网 络 支持 的 应 用 之 一 是 文件 访问 程序 ， 如 文件 传输 协议 (File Transfer 
Protocol, FTP) 或 网 络 文件 系统 (Network File System，NFS)。 尽 管 很 多 细节 不 同 ， 例 
如 ， 是 通过 网 络 传输 整个 文件 还 是 在 给 定 的 时 间 只 读 / 写 文件 的 一 块 ， 但 远程 文件 访问 的 
通信 组 件 的 特点 都 是 有 一 对 进程 ， 一 个 进程 请 求 读 / 写 文件 ， 另 一 个 进程 响应 这 个 请 求 。 
请 求 访问 文件 的 进程 称 为 客户 端 (client)， 支 持 文件 访问 的 进程 称 为 服务 器 (server)。 

读 文 件 时 ， 客 户 端 给 服务 器 发 一 个 小 的 请 求 消息 ， 而 服务 器 用 一 个 包含 文件 数据 的 大 
消息 作为 响应 。 写 操作 按照 相反 的 方式 进行 ， 客 户 端 给 服务 器 发 一 个 包含 将 被 写 入 的 数据 
的 大 消息 ， 而 服务 费用 一 个 确认 数据 已 经 写 到 磁盘 上 的 小 消息 作为 响应 。 
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数字 化 图 书馆 是 一 个 比 文件 传输 更 复杂 的 应 用 ,但 是 它 需 要 的 通信 服务 是 类 似 的 。 例 
如 ， 国 际 计算 机 协会 (Association for Computing Machinery, ACM) 运营 一 个 大 型 的 计 
算 机 科学 文献 数字 图 书馆 ， 网 址 是 http://portal. acm. org/dl. cfm。 这 个 网 书馆 提供 各 种 
各 样 的 搜索 和 浏览 功能 来 帮助 用 户 找到 他 们 想 要 的 文章 ， 但 最 终 其 做 得 最 多 的 工作 还 是 响 
应 用 户 的 文件 访问 请 求 ， 如 期 刊 文章 的 电子 版 . 这 与 FTP IRI AAR FE (UL. 

以 文件 访问 、 数 字 化 图 书馆 和 前 面 介绍 的 两 个 视频 应 用 (视频 会 议和 视频 点 播 ) 为 典型 
例子 ， 我 们 决定 提供 以 下 两 种 信道 : 请求/ 应答 (request/reply) 信道 和 消息 流 (message 
stream) 信道 。 请 求 /应 签 信道 可 用 于 文件 传输 和 数字 化 图 书馆 应 用 。 它 保证 由 一 方 发 送 的 每 
条 消息 都 被 另 一 方 接收 ， 并 且 每 条 消息 只 传输 一 份 找 贝 。 请求/ 应 答 信道 还 可 以 保证 在 其 上 
传输 的 数据 的 隐私 和 完整 性 ， 未 经 授权 不 能 读 或 修改 客户 与 服务 器 进程 之 间 交 换 的 数据 . 

只 要 设置 了 参数 来 支持 单 向 和 双向 传输 以 及 不 同 的 时 延 特性 ,消息 流 信道 就 可 用 于 视 
频 点 播 和 视频 会 议 应 用 。 消 息 流 信道 可 能 不 需要 保证 所 有 的 消息 都 被 发 送 ， 央 为 即使 一 些 
视频 帧 没有 被 接收 到 ， 视 频 应 用 仍 可 很 好 地 运行 。 然 而 ， eve 
发 送 的 顺序 到 达 ， 以 避免 播放 乱 序 的 帧 。 信道 一 样 . 消息 流 信 道 需要 保证 视 
频数 据 的 隐私 和 完整 性 。 最 后 ， 消 息 流 信道 震 要 支持 多 播 ， 这 样 多 方才 能 够 同时 参与 远程 
会 议 或 观看 视频 。 

对 网 络 设 计 者 来 说 ， 通 常会 采用 最 少 的 抽象 信道 类 型 来 为 最 多 的 应 用 提供 服务 . 但 抽 
象 信道 类 型 太 少 也 会 有 风险 。 简 单 地 说 ， 如 果 你 有 一 个 锤子 ， 便 会 觉得 所 有 的 东西 都 像 钉 
子 。 举 个 例子 ， 如 果 只 有 消息 流 信 道 和 请 求 /应 答 信 道 ， 那 么 ,在 下 一 个 应 用 出 现时 ， 你 
还 是 想 使 用 这 两 种 信道 ， 即 使 任何 一 个 信道 都 不 能 完全 提供 该 应 用 所 需 的 语义 。 因 此 ， 只 
要 程序 员 不 断 创造 出 新 应 用 ， 网 络 设计 者 就 可 能 创造 出 新 的 信道 类 型 ， 并 为 现 有 信道 增加 
选项 。 

另外 ， 值 得 注意 的 是 ， 不 管 一 个 特定 信道 究竟 提供 何 种 (what) 功能 ， 都 存在 一 个 在 
何 处 (where) 实现 这 种 功能 的 问题 。 在 很 多 情况 下 ， 最 容易 的 方法 是 把 底层 网 络 中 主机 
niente edi 个 比特 管道 (bit pipe) ， 而 高 层 通信 语义 由 终端 主机 提供 。 

这 种 方法 的 好 处 是 可 以 使 网 络 中 的 交换 机 尽 可 能 地 简单 〈 仅 转发 分 组 )， 但 要 求 终端 主机 
承担 更 多 的 任务 ， 支持 具有 丰富 语 ARIA E 进程 信道 。 另 一 种 方法 是 把 附加 功能 都 放 到 
交换 机 上 ， 从 而 允许 终端 主机 成 为 “ 哑 ” 设 备 〈 如 手机 )。 我 们 将 会 看 到 关于 如 何在 分 组 
交换 机 和 终端 主机 (设备) 间 分 配 各 种 网 络 服务 的 问题 是 一 个 在 网 络 设计 中 一 再 出 现 的 
问题 

2. 可 靠 性 

正如 上 述 例子 所 表明 的 ， 可 靠 的 消息 传输 是 网 络 提 供 的 最 重要 的 功能 之 一 。 然 而 ， 如 
果 不 先 明确 网 络 失败 的 原因 ， 就 很 难 决定 如 何 提供 可 靠 性 。 首 先 应 该 认识 到 ， 计 算 机 网 络 
并 不 是 存在 于 一 个 完美 的 世界 中 。 计 算 机 系统 出演 后 重启 、 光 纤 断 裂 、 电 磁 十 扰 使 正在 传 
输 的 数据 位 出 错 、 交 换 机 缓存 溢出 ， 这 些 物理 问题 已 经 足以 令 人 担忧 ， 更 何况 管理 硬件 的 
软件 可 能 存在 漏洞 ， 有 了 时 所 转发 的 分 组 还 会 丢失 。 因 此 ， 网络 的 一 个 重要 需求 就 是 从 某 些 
故障 中 恢复 ,使 得 应 用 程序 不 必 处 理 这 些 故 障 ， 其 至 不 知道 这 些 故 障 的 存在 。 

网 络 设计 者 必须 考虑 的 故障 通常 有 三 类 。 首 先 ， 当 通过 物理 链 路 传输 一 个 分 组 时 ， 数 
据 中 可 能 会 出 现 比 特 错 (bit error)， 也 就 是 说 ，1 变 成 0 或 0 变 成 1。 有 时 单个 比特 出 错 ， 
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更 多 的 时 候 会 发 生 突 发 差错 (burst error) 一 一 几 个 连续 的 比特 损坏 。 比 特 差 错 通常 是 由 
外 界 原因 引起 的 ， 如 闪电 、 电 力 波动 或 微波 炉 干 扰 数 据 的 传输 。 好 在 比特 差错 很 少 发 生 ， 
在 典型 的 铜 电缆 中 传输 时 ， 平 均 每 105 ~ 107 比特 中 出 现 一 个 比特 差错 ， 在 典型 的 光纤 中 传 
输 时 ,平均 每 10 一 1004 比特 中 出 现 一 个 比特 差错 。 我 们 将 看 到 ， 有 些 技术 能 够 以 很 高 的 
概率 检测 出 这 些 比 特 差错 。 一 旦 检测 到 比特 差错 ， 就 有 可 能 改正 这 些 错误 。 如 果 我 们 知道 
哪个 比特 或 哪些 比特 出 错 的 话 ， 简 单 地 取 反 即 可 ; 但 是 如 果 损 坏 非常 严重 ， 就 必须 丢弃 整 
个 分 组 。 在 这 种 情况 下 ， 则 希望 发 送 者 重 传 分 组 。 

第 二 类 错误 发 生 在 分 组 级 而 不 是 比特 级 ， 也 就 是 说 ， 网 络 丢 失 了 整个 分 组 。 发 生 这 类 
错误 的 原因 之 一 是 分 组 含有 不 可 纠正 的 比特 差错 ， 因 此 不 得 不 丢掉 。 然 而 ,可 能 性 更 大 的 
原因 是 . 一 个 必须 处 理 该 分 组 的 节点 〈 例 如 将 分 组 从 一 条 链 路 转发 到 另 一 条 链 路 的 交换 
HO 由 于 过 载 而 没有 空间 存储 分 组 ， 因 而 被 迫 将 其 丢掉 。 这 是 我 们 在 1. 2. 3 节 中 提 到 的 拥 
塞 问 题 。 男 一 种 不 太 普 裔 的 序 因 是 处 理 分 组 的 节点 上 运行 的 软件 出 现 错误 。 例如， 它 可 能 
将 一 个 分 组 转发 到 一 条 错误 的 链 路 ,使 得 分 组 找 不 到 最 终 目 的 地 。 我 们 会 看 到 ， 处 理 丢 失 
分 组 的 主要 困难 是 识别 该 分 组 究竟 是 确实 丢失 了 . 还 是 仅仅 延迟 到 达 目 的 地 。 

第 三 类 错误 发 生 在 节点 和 链 路 级 ,也 就 是 说 ， 物 理 链 路 被 切断 或 所 连接 的 计算 机 月 演 
了 了 。 这 类 错误 可 能 由 软件 崩溃 、 电 源 故 障 或 人 工 操作 失误 所 引起 ， 由 于 网 络 设 备 的 错误 配 
置 所 引起 的 失败 也 是 很 普遍 的 ， 虽然 这 样 的 错误 最 终 能 被 更 正 ， 但 仍 会 在 一 段 较 长 的 时 间 
内 对 网 络 产生 很 大 的 影响 。 然 而 ， 它 们 也 不 至 于 使 网 络 完全 不 能 使 用 。 例如， 在 分 组 交换 
网 中 ， 有 时 可 能 路 由 到 故障 节点 或 链 路 。 处 理 第 三 类 错误 的 困难 在 于 判断 一 台 计 算 机 是 由 于 
出 了 故障 还 是 速度 慢 ， 或 者 判断 一 条 链 路 是 由 于 断 了 还 是 性 能 很 差 而 导致 大 量 的 比特 差错 。 

结论 经 过 以 上 讨论 可 知 ， 定 义 有 用 的 信道 需要 理解 应 用 的 需求 并 明确 底层 技术 

的 局 限 性 。 我 们 所 面临 的 挑战 是 如 何 缩小 应 用 需求 与 底层 技术 所 能 提供 服务 之 间 

的 差距 。 这 种 差距 有 时 称 为 语义 缝隙 (semantic gap). 


1.2.5 可 管理 性 


最 后 一 个 需求 似乎 经 常 被 名 略 或 者 到 最 后 才 被 提出 2 ， 这 就 是 网 络 的 可 管理 性 。 管 理 
网 络 包 括 当 需要 扩大 网 络 来 承载 更 多 流量 或 支持 更 多 用 户 时 对 网 络 做 适当 改变 ， 以 及 当 出 
现 问 题 或 性 能 不 如 预期 时 排除 网 络 故障 。 

这 个 社 求 在 菜 种 程度 上 与 上 面 所 讨论 的 可 扩展 性 有 关 ， 因 为 因特网 已 经 扩展 到 能 够 支 
持 几 十 亿 用 户 和 至 少 几 亿 台 主机 ， 确 保 整 个 网 络 正 确 运 行 且 正确 配置 新 添加 的 设备 越 来 越 
成 问题 .配置 网 络 中 的 路 由 器 通常 是 受过 训练 的 专家 的 任务 ， 而 配置 几 千 台 路 由 器 并 能 找 
出 如 此 大 规模 的 网 络 为 什么 不 能 按照 预期 运行 的 原因 则 绝 不 是 任何 个 人 能 承担 的 任务 。 另 
外 ， 为 了 使 得 网 络 的 运营 具有 可 扩展 性 和 更 高 的 性 价 比 ， 网 络 运营 商 一 般 需 要 很 多 管理 任 
务 能 够 自动 执行 ， 或 者 至 少 可 以 由 技术 水 平 相对 不 太 高 的 人 来 完成 。 

自从 我 们 写 完 本 书 第 1 版 ， 网 络 发 展 的 一 个 重要 现象 是 家 庭 网 络 已 经 非常 普及 。 这 意 
味 着 网 络 管理 不 再 是 专家 的 任务 ， 而 是 需要 由 经 过 少量 培训 或 没有 培训 过 的 用 户 来 完成 。 
这 有 时 也 被 描述 为 需要 网 络 设 备 “ 即 插 即 用 ”"， 人 然而 事实 证 明 这 个 目标 相当 模糊 。 稍 后 ， 
我 们 将 讨论 部 分 满足 该 需求 的 一 些 方法 ,但 是 日 前 需要 注意 的 是 改善 网 络 的 可 管理 性 依旧 





局 ”就 像 我 们 在 本 节 中 所 做 的 那样 ， 








是 当前 重要 的 研究 领域 。 


1.3 网 络 体系 结构 


也 许 你 尚未 注意 到 ， 前 一 节 已 建立 了 一 个 相当 丰富 的 网 络 设计 需求 的 集合 ， 即 一 个 计 
算 机 网 络 必 须 提 供 大 量 计算 机 之 间 通 用 的 、 高 性 价 比 的 、 公 平 的 和 健壮 的 连通 性 。 但 似乎 
这 还 不 够 ， 因 为 网 络 不 是 一 成 不 变 的 ， 它 必须 适应 所 依赖 的 底层 DEAR AY BE 化 以 及 应 用 程序 
对 网 络 需求 的 变化 。 另 外 ,网 络 必 须 能 够 由 不 同 技术 水 平 的 人 来 管理 .设计 一 个 满足 这 些 
需求 的 网 络 并 非 易 事 。 

为 了 处 理 这 个 复杂 的 问题 ， 网 络 设 计 者 已 经 制定 了 通用 的 蓝图 ， 通常 称 为 网 络 体系 结 
构 (network architecture) ， 用 以 指导 网 络 的 设计 和 实现 。 本 节 通 过 引入 所 有 网 络 体系 结 
构 所 共有 的 核心 思想 ， 来 更 详细 地 定义 什么 是 网 络 体系 结构 。 我 们 还 将 介绍 两 个 被 广泛 参 
考 的 体系 结构 ， 即 OSI (或 7 层 ) 体系 结构 和 因特网 体系 结构 ，。 


1.3.1 分 层 和 协议 


抽象 一 一 隐藏 定义 良好 的 接口 背后 的 细节 一 一 是 系统 设计 者 用 于 处 理 复杂 性 的 基本 工 
具 。 抽 象 的 思想 是 定义 一 个 能 捕获 系统 某 些 特征 的 模型 ， 并 将 这 个 模型 封装 为 一 个 对 象 . 
为 系统 的 其 他 组 件 提供 一 个 可 操作 的 接口 ， 同 时 向 对 象 使 用 者 隐藏 对 象 的 实现 细节 。 困 难 
在 于 如 何 确 定 抽象 ， 使 得 它们 既 能 够 提供 适用 于 大 多 数 情况 的 服务 . 同时 能 够 在 底层 系统 
中 高 效 实 现 。 这 正 是 前 一 节 中 我 们 引入 信道 的 概念 时 想 要 做 的 : 我 们 想 为 应 用 提供 一 个 抽 
象 ， 对 应 用 开发 者 隐藏 网 络 的 复杂 性 。 


分 层 是 抽象 的 自然 结果 ， el 统 中 。 分 层 的 总 体 思 想 是 从 底层 硬件 提供 的 
服务 开始 ， 然 后 增加 一 系列 的 层 ， 每 一 层 都 提供 更 高 级 (更 抽象 ) 的 服务 .高 层 提供 的 服 
务 用 低层 提供 的 服务 来 实现 。 ey 总 结 前 一 节 给 出 的 有 ~ 
关 需 求 的 讨论 ， 可 以 将 一 个 网 络 简单 设想 为 夹 在 应 用 程序 Wg 
和 底层 硬件 之 间 的 两 层 抽象 ， 如 图 1-8 所 示 。 在 这 种 情况 ， 进程 对 进程 的 信道 
下 ,硬件 上 面 的 第 一 层 可 提供 主机 到 主机 的 连接 ， 对 两 台 主机 对 主机 的 连接 | 
主机 之 间 任 意 复杂 的 网 络 拓扑 进行 抽象 。 上 面 一 层 基于 主 硬件 | 


机 到 主机 的 通信 服务 ， 对 进程 到 进程 的 信道 提供 支持 ， 对。 册 1 8 分 层 网 络 系统 示 同 
网 络 偶尔 丢失 消息 这 样 的 事实 进行 抽象。 

分 层 具有 两 个 优点 。 第 一 ， 它 将 建造 网 络 这 个 问题 分 解 为 多 个 可 处 理 的 部 分 。 不 是 把 
想 要 的 所 有 功能 都 集中 在 一 个 软件 中 ， 而 是 可 以 实现 多 个 层 ， 每 一 层 解决 一 部 分 问题 .第 
二 ， 它 提供 一 种 更 为 模块 化 的 设计 。 如 果 想 增加 一 些 新 服务 ， 只 需要 修改 某 一 层 的 功能 ， 
同时 可 以 继续 使 用 其 他 各 层 提 供 的 功能 





然而 ,将 系统 看 作 层 次 的 线性 序列 是 一 种 过 分 简化 。 ， 应 用 程序 | 
通常 ， 在 系统 的 任意 一 层 上 都 提供 多 种 抽象 ， 每 种 抽象 请求 应答 通道 LMC | 
都 建立 在 同样 的 低层 抽象 上 ， 却 分 别 向 高 层 提供 不 同 的 ees oui = 


ie gp a ht alin 
种 信道 : 一 种 提供 请 求 / 应 答 服 务 ， 另 一 种 文 CREIR E i i 
务 。 这 两 种 信道 在 多 层 网 络 系统 的 是 个 特定 层 上 是 可 选 图 1-9 特定 层 上 具有 可 选 
的 ， 如 图 1-9 所 示 。 抽象 的 分 层 系统 
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在 有 关 分 层 讨 论 的 基础 之 上 ， 我 们 能 够 更 准确 地 讨论 网 络 的 体系 结构 。 对 初学 者 而 
言 ， 构 成 网 络 系统 分 层 的 抽象 对 象 称 为 协议 (protocol)。 就 是 说 ， P igin e 
服务 ， 供 高 层 对 象 〈 如 一 个 应 用 进程 或 更 高 层 的 协议 ) 交换 消息 。 例 如 ， 我 们 可 以 设想 一 
个 支持 请 求 / 应 答 协 议和 消息 流 协 议 的 网 络 ， 分 别 对 应 于 上 面 讨 论 EAR RIED 道 和 消 


每 个 协议 定义 两 种 不 同 的 接口 。 首 先 ， M Apabila rh riain 
象 定义 一 个 服务 接口 (service interface), 个 服务 接口 定义 了 本 地 对 象 可 以 在 该 协议 上 


执行 的 操作 。 例 如 ， sa HTTP 协 
ed eal Ee SB Tal ES ee 

» TR Web 浏览 器 这 样 的 应 用 将 调用 该 操作 来 获取 新 页 面 。 

其 次 ， 协 议 为 男 一 台 机 占 上 的 对 等 实体 定义 一 个 对 等 接口 (peer interface)。 第 二 种 
接口 定义 了 对 等 实体 之 间 为 实现 通信 服务 而 交换 的 消息 的 格式 和 含义 。 这 将 决定 一 台 机 器 
上 的 请 求 / 应 答 协 议 以 什么 方式 与 另 一 台 机 器 上 的 对 等 实体 进行 通信 。 例 如 ,在 HTTP th 
以 中 ， 协 议 规 范 详细 定义 了 “GET” 命 令 的 格式 ， 包 括 该 命令 可 以 使 用 哪些 参数 ， 以 及 当 
接收 到 此 命令 时 Web 服务 器 该 如 何 啊 应 (有关 此 协议 的 详情 参见 9.1.2 节 )。 

总 之 ， 协议 定义 了 一 个 本 地 输出 的 通信 服务 (服务 接口 ) 以 及 一 组 规则 ， 这 些 规则 用 
于 管理 协议 及 其 对 等 实体 为 实现 该 服务 而 交换 的 消息 (对 等 接口 )。 这 种 情况 如 图 1-10 
所 示 。 








对 等 接口 








图 1-10 服务 接口 和 对 等 接口 


除了 硬件 层 上 的 对 等 实体 之 间 通 过 一 条 链 路 直接 进行 通信 ， 对 等 实体 间 的 通信 都 是 间 
接 的 。 每 个 协议 和 它 的 对 等 实体 的 通信 过 程 是 将 消息 传 给 更 低层 的 协议 ， 再 由 更 低层 协议 
将 消息 发 给 它 的 对 等 实体 。 男 外 ， 在 任 一 层 都 可 能 有 潜在 的 提供 不 同 通信 服务 的 多 种 协 
议 , 每 一 种 协议 提供 不 同 的 通信 服务 。 因 此 我 们 用 协议 图 (protocol graph) 来 表示 构成 
网 络 系统 的 协议 族 ， 图 中 的 节点 对 应 于 协议 ， 边 表示 依赖 关系 。 例 如 ， 图 1- 11 描述 了 我 
们 刚才 讨论 过 的 假想 分 层 系统 的 协议 图 ， 协议 RRP (请 求 /应 答 协 议 ) 和 MSP (消息 流 协 
以 ) 实现 两 种 不 同类 型 的 进程 到 进程 信道 ， 并 且 都 依赖 于 提供 主机 到 主机 连通 服务 的 主机 
到 主机 协议 (HHP). 

在 这 个 例子 中 ,假设 主 机 1 上 的 文件 访问 程序 要 使 用 协议 RRP 提供 的 通信 服务 给 主 
机 2 上 的 对 等 实体 发 送 一 条 消息 。 在 这 种 情况 下 ， 文 件 应 用 tiesto RRP sae 它 发 送 消息 。 
为 了 与 对 等 实体 进行 通信 ，RRP 调用 HHP 服务 ，HHP 将 消息 送 台 机 器 的 对 等 实 
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图 1-11 协议 图 示例 


体 。 一旦 消息 到 达 主 机 2 上 的 HHP 实例 ，HHP 就 将 消息 向 上 传 给 RRP. RRP 再 将 消息 
传 给 文件 应 用 。 在 这 种 特定 的 情况 下 ,我 们 称 该 应 用 使 用 了 协议 栈 (protocol stack) 
RRP/HHP 提供 的 服务 。 

注意 ， 协 议 (protocol) 这 个 词 有 两 种 不 同 的 用 法 。 它 有 时 是 指 抽象 接口 ， 即 由 服务 
接口 定义 的 操作 以 及 对 等 实体 之 间 交 换 的 消息 的 格式 和 含义 ; 有 时 它 又 表示 实际 实现 这 两 
种 接口 的 模块 。 为 了 区 分 接口 和 实现 这 些 接口 的 模块 我们 通常 称 前 者 为 协议 规范 (pro- 
tocol specification)。 规 范 通 常用 文字 、 伪 码 、 状 态 转 换 图 、 分 组 格式 和 其 他 抽象 符号 的 组 
合 来 表示 。 一 个 给 定 的 协议 可 由 不 同 的 程序 员 按 不 同 的 方法 来 实现 ， 只 要 符合 协议 规范 即 
可 。 实 现 的 困难 在 于 如 何 保证 使 用 同样 协议 规范 的 两 个 不 同 实现 能 成 功 地 交换 消息 。 能 够 
准确 地 实现 一 个 协议 规范 的 两 个 或 多 个 协议 模块 称 为 彼此 可 互 操 作 (interoperate) . 

我 们 可 以 设想 出 许多 满足 一 组 应 用 通信 需求 的 不 同 的 协议 和 协议 图 。 幸 运 的 是 ， 有 些 
标准 化 组 织 会 为 具体 的 协议 图 制定 政策 ， 比 如 国际 标准 化 组 织 ASO) 和 因特网 工程 任务 
组 (IETF)。 我 们 规定 一 个 协议 图 的 格式 和 内 容 的 规则 的 集合 称 为 网 络 体系 结构 (net- 
work architecture) 。 尽 管 超出 本 书 范围 ， 但 ISO 和 IETF 等 标准 化 组 织 已 经 在 它们 各 自 的 
体系 内 建立 了 严格 定义 的 用 于 引入 、 验 证 和 最 终 批准 协议 的 规程 。 我 们 将 在 后 面 描述 由 
ISO 和 IETF 定义 的 体系 结构 ， 但 是 首先 需要 解释 有 关 协 议 分 层 机 制 的 另外 两 个 要 素 。 

1. 封装 

对 于 图 1-11， 考 虑 当 一 个 应 用 程序 通过 将 消息 传输 给 RRP 协议 来 向 它 的 对 等 实体 发 
送 消息 时 会 发 生 什么 ln 从 RRP 的 角度 来 看 ， 应 用 程序 给 出 的 消息 是 一 个 无 解释 的 字 
节 串 。RRP 并 不 关心 这 些 字 节 表 示 一 个 整 型 数组 、 一 封 电子 邮件 、 一 幅 数 字 化 图 像 或 是 
其 他 什么 ， 它 只 是 负责 将 这 些 字 节 发 给 它 的 对 等 实体 然而 ，RRP 必须 将 控制 信息 传输 
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给 它 的 对 等 实体 ， 指 示 对 等 实体 如 何 处 理 收 到 的 消息 。 为 做 到 这 一 点 ，RRP 将 一 个 首部 
(header) 附加 到 消息 上 。 一 般 说 来 ， 首 部 是 一 个 小 的 数据 结构 ， 从 几 个 字 节 到 几 十 个 字 
节 ， 用 于 对 等 实体 彼此 间 的 通信 。 顾 名 思 义 ， 首 部 通常 加 到 消息 的 前 面 。 然 而 在 有 些 情 况 
下 ， 对 等 实体 之 间 的 控制 信息 在 消息 的 末尾 发 送 ， 这 时 称 为 尾部 (trailer)。RRP 附加 首 
部 的 确切 格式 是 由 其 协议 规范 定义 的 。 消 息 的 其 余部 分 称 为 消息 体 body) 或 有 效 载荷 
(payload), ， 即 要 蔡 应 用 程序 传输 的 数据 。 我 们 称 应 用 程序 的 数据 被 封装 (encapsulate) 在 
一 个 由 RRP 协议 创建 的 新 消息 中 。 

封装 过 程 在 协议 图 的 每 一 层 都 被 重复 ， 例 如 ，HHP 封装 RRP 的 消息 ， 加 上 一 个 自己 
的 首部 。 如 果 我 们 假设 现在 HHP 通过 网 络 发 送 消息 给 它 的 对 等 实体 ,那么 当 消 息 到 达 目 
的 主机 时 ， 它 将 以 相反 的 顺序 被 处 理 : HHP 首先 解释 消息 前 面 的 首部 〈 即 根据 首部 的 内 
容 采 取 相 应 的 行动 )， 并且 将 消息 体 向 上 传 给 RRP (不 包括 HHP 的 首部 )，RRP 根据 其 
对 等 方 所 添加 的 首部 的 指示 采取 行动 ， 并 将 消息 体 (不 包括 RRP 的 首部 ) 向 上 传 给 应 用 
程序 。 由 RRP 向 上 传递 给 主机 2 上 的 应 用 程序 的 消息 正 是 应 用 程序 向 下 传递 给 主机 1 的 
RRP 的 消息 ， 应 用 程序 看 不 见 任何 附加 到 消息 上 以 实现 更 低层 通信 服务 的 首部 。 整 个 过 
程 如 图 1-12 所 示 。 注意 ,在 这 个 例子 中 ， 网 络 中 的 节点 〈 如 交换 机 和 路 由 器 ) 可 能 会 检 
查 消息 前 面 的 HHP 首部 。 





主机 1 l 主机 2 | 
应 用 程序 EOE | 
wi || | [Ean 
RRP | RRP | | 
RRP 数据 | | | | RRP a 
HHP | HHP | 1 

4 

EER HHP RRP 数据 = 








图 1-12 高 层 消息 被 封装 在 低层 消息 内 


注意 ， 当 我 们 说 一 个 低层 协议 不 解释 某 个 高 层 协议 发 送 过 来 的 消息 时 ， 是 指 它 不 知道 
如 何 从 消息 所 含 的 数据 中 得 出 含义 。 然 而 ， 在 有 些 情况 下 ， 低 层 协 议会 对 接收 到 的 数据 做 
某 种 简单 的 转换 ， 如 压缩 或 加 密 。 此 时 ， 协 议 转换 整个 消息 体 ， 包 括 原始 的 应 用 数据 和 由 
高 层 协议 加 在 数据 上 的 所 有 首部 。 

2. 多 路 复 用 和 多 路 分 解 

回顾 1. 2. 3 节 分 组 交换 的 基本 思想 : 在 一 条 物理 链 路 上 多 路 复 用 多 个 数据 流 。 同 样 的 
思想 也 适用 于 协议 图 中 的 上 层 和 下 层 ， 而 不 只 用 于 交换 节点 。 例 如 ， 在 图 1-11 中 ， 可 将 
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条 信道 ， 然 后 在 目标 主机 上 多 路 分 解 到 相应 的 应 用 。 

实际 上 ， 这 仅仅 意味 着 RRP 附加 到 消息 上 的 首部 包含 一 个 标识 符 ， 用 于 记录 消息 属 
于 哪个 应 用 程序 。 我 们 将 这 个 标识 符 称 为 RRP 的 多 路 分 解 键 (demultiplexing key， 简 写 
为 demux key), WEILE, RRP 在 首部 中 包含 相应 的 多 路 分 解 键 。 当 消息 传 到 目标 主 
机 上 的 RRP 时 ， 它 剥 下 首部 ,检查 多 路 分 解 键 ,然后 将 消息 多 路 分 解 到 正确 的 应 用 程 
序 中 。 

RRP 并 不 是 唯一 支持 多 路 复 用 的 协议 ， 几 乎 每 个 协议 都 能 实现 这 种 机 制 。 例如， 
HHP 有 自己 的 多 路 分 解 键 ， 用 于 确定 哪些 消息 上 传 给 RRP， 哪 些 消息 上 传 给 MSP. 但 
是 ， 对 于 多 路 分 解 键 的 构成 ， 在 协议 〈 甚 至 那些 在 同一 个 网 络 体系 中 的 协议 ) 之 间 并 没有 
统一 的 规定 。 一 些 协议 使 用 8 位 的 字段 (表示 只 能 支持 256 个 高 层 协议 )， 而 男 一 些 协议 
使 用 16 位 或 32 位 的 字段 。 而 且 ， 一 些 协议 在 首部 中 只 有 一 个 多 路 分 解 字 段 ， 而 另 一 些 协 
议 可 能 有 一 对 多 路 分 解 字段 。 在 前 一 种 情况 下 .通信 双方 使 用 相同 的 多 路 分 解 键 ; 而 在 后 
一 种 情况 下 ， 通 信 双 方 使 用 不 同 的 键 来 识别 消息 将 被 传输 给 哪个 高 层 协 议 (或 应 用 程序 ). 

3. 七 层 模型 

ISO 是 最 早 正式 定义 计算 机 互联 的 通用 方法 的 组 织 之 一 。 它们 的 体系 结构 称 为 开放 系 
统 互 联 (Open Systems Interconnection, OSD 体系 结构 ， 如 图 1-13 所 示 ， 将 网 络 按 功 能 
划分 为 七 层 ， 由 一 个 或 多 个 协议 实现 分 配给 某 个 特定 层 的 功能 。 这 意味 着 图 1- 13 并 不 是 
一 个 协议 图 ， 而 是 一 个 协议 图 的 参考 模型 (reference model)， 通 常 称 为 七 层 模 型 。 









ZE 
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Tima | 
wre | | 
Se ae 
E 





| 
| 
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| 网 络 层 | | 网 络 层 | 


数据 链 路 层 | ”数据 链 路 层 











网 络 中 的 一 个 或 多 个 节点 
图 1-13 OSI 七 层 模型 


从 底层 开始 依次 向 上 ， 物 理 (physical) 层 处 理 通信 和 链 路 上 原始 比特 的 传输 。 然 后 ， 
数据 链 路 (data link) 层 收 集 比 特 流 形成 一 个 更 大 的 集合 体 ， 称 为 帧 〈frame)。 典 型 情 识 
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下 ,由 网 络 适 配器 和 运行 在 节点 操作 系统 上 的 设备 驱动 程序 一 起 来 实现 数据 链 路 层 。 这 意 
味 着 实际 传输 给 主机 的 是 帧 ， 而 不 是 原始 比特 。 网 络 (network) 层 处 理 一 个 分 组 交换 网 
内 节点 的 路 由 。 在 这 一 层 ， 节 点 间 交 换 的 数据 单元 通常 称 为 分 组 (packet) 而 不 是 帧 ， 尽 
管 它们 基本 上 是 一 回 事 。 较 低 的 三 层 在 所 有 网 络 节点 中 都 要 实现 ， 包 括 网 络 内 部 的 交换 机 
和 网 络 外 部 连接 的 主机 。 传 输 (transport) 层 实现 我 们 提 到 过 的 进程 到 进程 信道 ， 在 此 ， 
交换 的 数据 单元 通常 称 为 消息 (message) 而 不 是 分 组 或 帧 。 传 输 层 和 更 高 层 通常 只 在 终 
端 主机 上 运行， 而 不 在 中 间 交 换 机 或 路 由 器 上 运行 。 

关于 上 面 三 层 的 定义 不 太 统一 ， 部 分 原因 是 这 三 层 并 不 总 是 出 现 ， 下 面 将 会 看 到 这 
一 点 。 先 看 最 顶层 (第 七 层 )， 这 是 应 用 (application) 层 。 应 用 层 协议 包括 超 文本 传输 
协议 (HTTP) 等 ，HTTP 是 万 维 网 的 基础 ， 它 使 Web 浏览 器 能 够 向 Web 服务 器 请 求 
Kim. #2 FR. AA (presentation) 层 关注 对 等 实体 间 交 换 的 数据 的 格式 ， 例 如， 整数 
是 16 位 、32 位 还 是 64 位 长 ， 最 先 传输 还 是 最 后 传输 最 高 有 效 位 ,或 者 如 何 格式 化 一 
个 视频 流 。 最 后 ， 会 话 (session) 层 提供 一 个 命名 空间 ， 用 来 将 一 个 应 用 的 各 部 分 不 同 
的 传输 流 联系 在 一 起 。 例 如 ， 它 可 以 管理 一 个 视频 会 议 应 用 中 结合 在 一 起 的 一 个 音频 流 
和 一 个 视频 流 。 


1.3.2 因特网 体系 结构 


因特网 体系 结构 有 时 也 称 为 TCP/IP 体系 结构 ， 因 为 TCP 和 IP 是 它 的 两 个 主要 协 
i. 如 图 1-14 所 示 。 图 1-15 给 出 另外 一 种 表示 方法 。 因 特 网 体系 结构 是 从 早期 的 分 组 交 
换 网 ARPANET 发 展 而 来 的 。 因 特 网 和 ARPANET 都 是 由 美国 高 级 研究 规划 署 (AR- 
PA) 资助 创建 的 ，ARPA 是 美国 国防 部 的 研发 基金 机 构 之 一 。 在 OSI 体系 结构 出 现 之 前 ， 
因特网 和 ARPANET 就 已 经 存在 了 ， 并且 在 创建 它们 时 所 积累 的 经 验 对 OSI 参考 模型 产 
生 了 重大 影响 。 


| FTP | (urre | | NV | | TFTP 
_———— eee se ——— 


| TCP | | UDP | 


NET, | NET, | 
———— —— 图 1-15 因特网 体系 结构 的 另 一 个 视角 ， 子 网 层 
图 1-14 因特网 协议 图 四 称 为 网 络 层 ， 现 在 通常 简称 为 第 二 层 





应 用 层 


| 
[ml 
| 





尽管 七 层 OSI 模型 理论 上 能 够 应 用 于 因特网 ， 但 是 实际 上 通常 采用 四 层 模 型 。 在 最 低 
层 是 多 种 网 络 协 议 ， 表 示 为 NET), NET. 等。 实际 应 用 中 ， 这 些 协议 由 硬件 (如 网 络 适 
Rica) 和 软件 (如 网 络 设备 驱动 程序 ) 共同 实现 。 例 如 ， 以 太 网 或 无 线 协 议 ( 如 802. 11 
WiFi 标准 ) 就 会 出 现在 这 一 层 。( 这 些 协议 实际 上 还 可 以 包含 几 个 子 层 , 但 是 因特网 体系 
结构 并 没有 对 此 做 任何 假设 .) 第 二 层 只 有 一 个 网 际 协议 (nternet Protocol, IP), ith 
以 支持 多 种 网 络 技术 互联 为 一 个 逻辑 网 络 。 第 三 层 包 括 两 个 主要 的 协议 : 传输 控制 协议 
(Transmission Control Protocol, TCP) 和 用 户 数 据 报 协 议 (User Datagram Protocol, 
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UDP), TCP 和 UDP Jy Wi JI FEJE Pe BE ny ie Ay eH FPG. TCP 提供 可 靠 的 字 节 流 信道 . 
UDP 提供 不 可 靠 的 数据 报 传输 信道 (数据 报 (datagram) 可 认为 是 消息 的 同义词 )， 在 因 
特 网 的 语言 中 ，TCP 和 UDP 有 时 也 称 作 端 到 端 (end-to-end) 协议 ， 但 称 其 为 传输 协议 
同样 正确 。 

在 传输 层 上 运行 了 大 量 应 用 协议 ， 如 HTTP, FTP, Telnet (远程 登录 ) 和 简单 邮件 
传输 协议 (Simple Mail Transfer Protocol，SMTP)， 使 得 常用 的 应 用 可 以 互 操 作 。， 为 了 
理解 应 用 层 协 议和 应 用 之 间 的 区 别 ， 我 们 考虑 所 有 正在 使 用 或 曾经 使 用 过 的 不 同 WWW 
浏览 器 (如 Firefox, Safari, Netscape, Mosaic, Internet Explorer), Web 服务 器 有 大 量 
类 似 的 不 同 实现 方式 ， 可 以 使 用 这 些 应 用 程序 中 的 任 一 个 访问 Web 上 的 某 个 站 点 . 原因 
是 它们 都 符合 同样 的 应 用 层 协 议 : HTTP。 有 时 用 同一 个 词 表示 应 用 和 该 应 用 使 用 的 应 用 
层 协议 容易 引起 混淆 ， 例 如 ，FTP 通常 用 作 实 现 FTP 协议 的 一 个 应 用 的 名 字 

现在 工作 在 网 络 领 域 的 大 部 分 人 既 熟 悉 因特网 体系 结构 也 熟悉 七 层 OSI 体系 结构 ， 并 
且 就 两 个 体系 结构 之 间 层 次 的 对 应 关系 达成 了 共识 。 因 特 网 的 应 用 层 被 看 作 是 第 七 层 ， 其 
传输 层 是 第 四 层 ，IP 层 (网 络 互 联 层 或 网 络 层 ) 是 第 三 层 ，IP 层 下 面 的 链 路 或 子 网 层 是 
第 二 层 。 

因特网 体系 结构 有 三 个 特点 值得 注意 。 第 一 ， 如 图 1- 15 所 示 ， 因特网 体系 结构 没有 
严格 地 划分 层 。 应 用 可 以 自由 地 跨 过 已 定义 的 传输 层 ， 而 直接 使 用 IP 层 或 低层 网 络 . 事 
实 上 ， 程 序 员 可 以 自由 定义 新 的 信道 抽象 或 在 任何 已 有 协议 上 运行 的 应 用 程序 。 

第 二 ， 如 果 仔 细 观 察 图 1- 14 中 的 协议 图 ， 你 会 看 到 一 个 沙漏 形状 一 一 顶部 宽 、 中 间 
窗 、 底 部 宽 。 这 种 形状 实际 上 反映 了 该 体系 结构 的 中 心 哲学 。 就 是 说 ，IP 层 作 为 体系 结 
构 的 焦点 ， 为 各 种 网 络 中 的 交换 分 组 定义 一 种 通用 方法 。IP 层 之 上 可 以 有 多 个 传输 协议 、 
每 个 协议 为 应 用 程序 提供 一 种 不 同 的 信道 抽象 。 这样， 从 主机 到 主机 传输 消息 的 问题 就 从 
提供 有 用 的 进程 到 进程 通信 服务 的 问题 中 完全 分 离 出 来 。IP 层 之 下 ,这 个 体系 结构 允许 
很 多 不 同 的 网 络 技术 ， 从 以 太 网 到 无 线 再 到 单个 的 点 到 点 链 路 。 

因特网 体系 结构 (或 者 更 精确 地 称 为 IETF 文化 ) 的 最 后 一 个 属性 是 : 为 了 将 一 个 新 
协议 正式 包含 在 网 络 体系 结构 中 ,必须 有 一 个 协议 规范 并 至 少 有 一 个 (最 好 两 个 ) 该 规范 
的 典型 实现 。 被 IETF 采用 的 协议 标准 必须 有 能 工作 的 协议 实现 。 这 种 要 求 有 助 于 保证 体 
系 结构 的 协议 能 够 有 效 实 现 。 也 许 因 特 网 文化 对 于 可 工作 软件 的 价值 的 最 佳 体现 ， 就 是 
IETF 会 议 上 常 穿 的 荆 愧 上 印 着 的 一 句 话 : 

我 们 拒绝 国王 、 总 统 和 选举 。 我 们 信奉 的 是 大 体 上 的 一 致意 见 和 可 执行 的 代码 。 
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结论 ”在 因特网 体系 结构 的 三 个 属性 中 ， 值 得 重申 的 是 “沙漏 ”这 一 重要 设计 理 

念 。 沙 漏 的 细 腰 部 代表 最 小 的 、 经 过 精心 挑选 的 通用 功能 集 ， 它 允许 高 层 应 用 和 

低层 通信 技术 并 存 ， 共 享 各 种 功能 并 快速 发 展 。 细 腰 模 型 十 分 重要 ， 它 使 得 因 特 

网 能 够 快速 适应 用 户 的 新 要 求 和 技术 的 变革 。 

1.4 实现 网 络 软件 
网 络 体系 结构 和 协议 规范 是 基础 ， 但 好 的 蓝图 并 不 能 完全 解释 因特网 所 取得 的 巨大 成 


功 : 接 人 因特网 的 计算 机 数 在 将 近 30 年 的 时 间 内 呈 指 数 增长 (虽然 现在 很 难 获得 确切 的 数 
字 )。 据 估计 ，2009 年 使 用 因特网 的 人 数 约 18 亿 ， 这 在 世界 人 口中 占有 相当 大 的 比例 
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如 何 解 释 因 特 网 的 成 功 呢 ? 当然 有 许多 相关 因素 〈 包 括 一 个 好 的 体系 结构 )， 但 因 特 
网 取得 巨大 成 功 的 一 个 因素 是 它 的 许多 功能 是 由 通用 计算 机 上 运行 的 软件 实现 的 。 其 意义 
在 于 只 要 进行 “少量 的 编程 ”， 就 可 以 方便 地 增加 一 个 新 功能 。 于 是 ,新 的 应 用 和 服务 一 
直 在 以 令 人 难以 置信 的 速度 涌现 ， 如 电子 商务 、 视 频 会 议 、IP 电话 ， 等 等 。 

另 一 个 相关 因素 是 商用 计算 机 计算 能 力 的 显著 增长 。 尽 管 计算 机 网 络 理论 上 能 传输 各 
类 数据 ， 如 数字 语音 样本 、 数 字 化 图 像 等 ， 但 如 果 计 算 机 在 发 送 和 接收 这 些 数据 时 的 速度 
太 慢 .那么 这 些 信 息 将 失去 价值 ， 人 们 也 会 对 它 失 去 兴趣 。 实际 上 ， 当 今 所 有 计算 机 都 能 
全 速 播放 数字 化 语音 ， 而 且 对 某 些 应 用 (不 是 全 部 ) 而 言 ， 它 能 以 可 用 的 速率 和 分 辩 率 播 
放 视 频 。 因 此 ， 当 今 的 网 络 越 来 越 多 地 用 于 承载 多 媒体 ， 只 有 计算 机 硬件 的 速度 变 得 更 
TR. 这 种 支持 才 会 不 断 增强 。 

在 本 书 第 1 版 出 版 以 后 ， 写 网 络 应 用 已 经 成 为 非常 主流 的 活动 ， 而 不 再 是 少数 专家 的 
[ 作 。 许 多 因素 促成 了 这 种 现象 ， 包 括 更 好 的 工具 使 得 编程 工作 对 于 非 专 业 人 员 来 说 变 得 
更 简单 ， 以 及 智能 手机 应 用 等 新 市 场 的 出 现 。 

值得 注意 的 是 了解 如 何 实现 网 络 软件 是 理解 计算 机 网 络 的 重要 部 分 ， 虽 然 可 能 不 会 
要 求 你 实现 一 个 像 IP 这 样 的 低层 协议 ， 但 很 有 可 能 会 找到 实现 一 个 应 用 层 协 议 的 理 
由 一 一 难以 提 摸 的 “杀手 级 应 用 ”会 带 来 无 法 想象 的 名 誉 和 利益 。 作 为 第 一 步 ， 本 节 介 绍 
在 因特网 上 实现 网 络 应 用 的 相关 问题 ， 这 些 程序 通常 既是 一 个 应 用 (用 于 与 用 户 交 互 )， 
同时 也 是 一 个 协议 (通过 网 络 与 对 等 方 通信 )。 第 9 间作 为 本 书 的 总 结 ， 将 回 到 网 络 应 用 
(应 用 层 协 议 ) 这 个 主题 ， 研 究 几 个 常见 的 例子 。 


1.4. 1 应 用 程序 编程 接口 (BRS) 


实现 网 络 应 用 时 ， 要 从 网 络 提供 的 接口 开始 。 由 于 大 多 数 网 络 协议 都 是 由 软件 实现 的 
(特别 是 协议 栈 中 的 高 层 协议 ) ， 而 且 几 乎 所 有 计算 机 系统 都 将 网 络 协议 的 实现 作为 操作 系 
统 的 一 部 分 ， 所 以 当 我 们 说 “网 络 提供 的 ”接口 时 ， 一 般 指 的 是 操作 系统 为 它 的 网 络 子 系 
统 提供 的 接口 。 这 个 接口 通常 称 为 网 络 应 用 程序 编程 接口 Application Programming In- 
terface, API). 

虽然 每 个 操作 系统 都 可 以 自由 地 定义 自己 的 网 络 AP] (而 且 大 多 数 已 经 定义 )， 但 随 
着 时 间 的 推移 ， 有些 API 获得 了 广泛 的 支持 ， 也 就 是 说 ， 它 们 被 移植 到 除 原始 系统 以 外 的 
操作 系统 中 。 套 接 字 接 口 (socket interface) 就 是 这 样 ， 它 最 初 是 由 加 州 大 学 伯克利 分 校 
的 Unix 小 组 开发 的 ， 而 现在 几乎 所 有 流行 的 操作 系统 都 支持 它 ， 并 且 很 多 特定 语言 的 接 
口 都 是 以 它 为 基础 的 ， 如 Java 套 接 字 库 。 业 界 支持 单一 API 的 好 处 是 应 用 程序 很 容易 从 
-个 操作 系统 移植 到 另 一 个 操作 系统 ， 开 发 者 很 容易 编写 用 于 多 个 操作 系统 的 应 用 。 

在 描述 套 接 字 接 口 之 前 ， 区 分 两 件 事 很 重要 。 每 个 协议 提供 一 系列 服务 (service)， 
API 则 提供 特定 操作 系统 中 调用 这 些 服务 所 用 的 语法 (syntax)。 然 后 ， 接 口 的 实现 负责 
把 API 定 义 的 具体 操作 集 和 对 象 集 映射 到 协议 所 定义 的 抽象 服务 集 上 。 如 果 接口 定义 得 很 
好 ， 那 么 就 可 能 用 这 个 接口 的 语法 来 调用 许多 不 同 协议 的 服务 .尽管 还 很 不 完善 ， 但 这 种 
通用 性 显然 是 套 接 字 接 口 的 目标 。 

毫 无 疑问 ， 套 接 字 接 口 的 主要 概念 是 套 接 字 (socket) 。 理 解 套 接 字 的 好 方法 是 把 它 看 
作 本 地 应 用 进程 接 和 人 网 络 的 地 方 。 套 接 字 接 口 定义 的 操作 包括 创建 套 接 字 、 将 套 接 字 连 接 
到 网 络 ， 通 过 套 接 字 发 送 /接收 消息 以 及 关闭 套 接 字 。 为 了 简化 讨论 ， 我们 在 此 只 说 明 








TCP 中 如 何 使 用 套 接 字 。 

第 一 步 是 创建 套 接 字 ， 该 步骤 通过 如 下 操作 实现 : 

int socket (int domain, int type, int protocol) 

这 个 操作 带 有 三 个 参数 ， 原 因 是 套 接 字 接口 被 设计 成 通用 的 ， 足以 支持 任意 的 底层 协议 
We. domain 参数 指定 了 将 要 使 用 的 协议 族 (family)，PF_INET 表示 因特网 协议 族 ，PF_ 
UNIX 表示 Unix 管道 功能 ，PF_PACKET 表示 直接 访问 网 络 接口 (BIS TCP/IP 协议 
栈 ) type 参数 表明 通信 的 语义 ，SOCK_STREAM 表示 字 节 流 ，SOCK_DGRAM 是 另 一 
种 选择 ,表示 面向 消息 的 服务 ， 如 UDP 提供 的 服务 。protocol 参数 指明 将 要 用 到 的 特定 
协议 。 在 我 们 的 例子 中 ， 该 参数 为 UNSPEC、 因 为 PF_INET 和 SOCK_STREAM 结合 起 
来 表示 TCP。 最 后 ，socket 的 返回 值 是 新 创建 套 接 字 的 句柄 (handle)， 即 以 后 引用 该 套 
接 字 时 使 用 的 标识 符 ， 它 将 作为 对 该 套 接 字 的 后 续 操 作 中 的 一 个 参数 . 

下 一 步 工 作 取 决 于 计算 机 是 客户 端 还 是 服务 器 。 在 服务 器 主机 上 ， 应 用 进程 执行 被 动 
(passive) 打开 一 一 服务 器 表明 它 已 准备 好 接受 连接 ， 但 是 它 并 不 实际 建立 连接 。 为 此 .、 
服务 器 调用 以 下 三 个 操作 : 

int bind(int socket.struct sockaddr * address,int addr_len) 


int listen(int socket. int backlog) 
int accept(int socket,struct sockaddr * address,int * addr_len) 


顾名思义 ，bind 操作 将 新 创建 的 socket 与 指定 的 address 绑 定 ， 这 个 地 址 是 本 地 (lo- 
cal) 参与 者 〈 服 务 器 ) 的 网 络 地 址 。 注意 ， 在 使 用 因特网 协议 时 ，address 是 一 个 包含 服 
F ae HY IP 地 址 和 TCP 端口 号 的 数据 结构 。( 正 如 我 们 将 在 第 5 章 看 到 的 ， 端 口 用 于 间接 
地 标识 进程 ， 它 们 是 一 种 多 路 分 解 键 (demux key)， 其 定义 见 1.3.1 节 .) 端口 号 通常 是 
一 些 特定 于 现 有 服务 的 众所周知 的 数字 ， 例 如 ，Web 服务 器 通常 在 端口 80 上 接受 连接 . 

然后 ， 用 listen 操作 定义 在 指定 的 套 接 字 上 可 以 有 多 少 个 待 处 理 的 连接 。 最 后 ，ac- 
cept 操作 完成 被 动 打开 。 这 是 一 个 阻塞 操作 ， 在 远程 参与 者 没有 建立 起 连接 前 ， 它 不 会 返 
回 ,一 旦 连接 成 功 ， 它 将 返回 一 个 与 刚 建立 的 连接 相对 应 的 新 (new) BRF. 并 且 ad- 
dress 参数 将 包含 远程 (remote) 参与 者 的 地 址 。 注 意 ， 当 accept 返回 时 ， 作 为 参数 给 定 
的 原始 套 接 字 依 然 存 在 ， 并 依然 对 应 于 这 个 被 动 打开 ,在 以 后 调用 accept 时 仍 作为 参数 。 

在 客户 端 ， 应 用 进程 执行 主动 (active) 打开 ,也 就 是 说 ,通过 调用 如 下 操作 表明 项 
望 进行 通信 : 

int connect(int socket,struct sockaddr * address.int addr_len) 
该 操作 直至 成 功 建立 TCP 连接 后 才 返 回 ， 此 时 应 用 程序 可 以 自由 发 送 数据 。 在 这 种 情形 
F, address 中 包含 远程 参与 者 的 地 址 。 实 际 上 ， 客 户 端 通常 只 指明 远程 参与 者 的 地 址 ， 
让 系统 自动 填写 本 地 信息 。 鉴 于 服务 器 通常 在 众所周知 的 端口 上 监听 消息 ， 客 户 端 一 般 并 
不 关心 它 自己 用 哪个 端口 ， 操 作 系 统 简单 地 选取 一 个 未 用 端口 即 可 。 

一 旦 连接 建立 ， 应 用 进程 就 调用 以 下 两 个 操作 来 发 送 和 接收 数据 : 

int send(int socket. char * message.int msg_len.int flags) 

int recv(int socket.char * buffer. int buf_len,int flags) 


第 一 个 操作 在 指定 的 socket 上 发 送 message， 而 第 二 个 操作 从 指定 的 socket 上 接收 消息 ， 
并 放 人 指定 的 buffer。 这 两 个 操作 都 使 用 一 组 flags 来 控制 操作 的 特定 细节 。 
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1.4.2 应 用 实例 

现在 ， 我 们 来 看 一 个 简单 的 客户 端 / 服 务 器 程序 的 实现 ， 该 程序 利用 套 接 字 接 口 在 
TCP 连接 上 发 送 消息 。 这 个 程序 还 用 到 了 其 他 的 Unix 网 络 功能 ， 后 文 将 逐一 介绍 。 这 个 
应 用 允许 一 台 机 大 上 的 用 户 输 入 文本 并 把 它 发 送 给 男 一 台 机 右上 的 用 户 ， 它 是 Unix 中 
talk 程序 的 一 个 简化 版 本 ， 类 似 于 即时 通信 应 用 的 核心 程序 。 

1. 客户 端 

我 们 先 从 客户 端 开 始 ， 它 将 远程 机 器 的 名 字 作 为 参数 ， 调 用 Unix 程序 gethost- 
byname 把 这 个 名 字 转 化 为 远程 主机 的 IP 地 址 ， 然 后 构造 套 接 字 接 口 所 需 的 地 址 数据 结构 
(sin)。 注 意 ， 这 个 数据 结构 表明 我 们 将 用 该 套 接 字 与 因特网 CAF _ INET) 连接 。 在 这 个 
例子 中 ,我 们 用 TCP 端口 号 5432 作为 已 知 的 服务 器 端口 号 ， 它 恰好 不 是 分 配给 其 他 因 特 
网 服务 的 端口 号 。 建 立 连接 的 最 后 一 步 是 调用 socket 和 connect, — HA connect 操作 返回 ， 
连接 就 建立 了 ， 客 户 端 程序 将 进入 主 循环 ， 从 标准 输入 读 文本 并 通过 套 接 字 发 送出 去 。 


#include <stdio.h> 

#include <sys/types.h> 
#Hinclude <sys/socket.h> 
fHinclude <netinet/in.h> 


fHinclude <netdb.h> 


#tdefine SERVER_PORT 5432 
#define MAX_LINE 256 


rat 
main(int argc, char * argv[]) 
{ 
FILE «fp; 
struct hostent *hp; 
struct sockaddr_in sin: 
char *host; 
char buf{MAX_LINE]; 
int Sis 


int len; 


if (argc==2) | 
host = argv(1]; 
| 


else { 
fprintf(stderr, "usage: simplex-talk host\n"); 
BxIT CLI: 


/* translate host name into peer's IP address */ 

hp = gethostbyname(host); 

if (!hp) | 
fprintf(stderr, “simplex-talk: unknown host: %s\n", host); 
exit(1); 
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/* build address data structure */ 

bzero((char *)&sin, sizeof (sin)); 

sin.sin_family = AF_INET; 

bcopy(hp->h_addr, (char *)&sin.sin_addr, hp->h_length); 
sin.sin_port = htons(SERVER_PORT); 


/* active open */ 
if ((s = socket(PF_INET, SOCK_STREAM, 0)) < 0) I 
perror("simplex-talk: socket"); 
exit(1); 
| 
if (connect(s, (struct sockaddr *)&sin, sizeof(sin)) < 0) 
| 
perror("simplex-talk: connect"); 
close(s); 
exit(1); 
} 
/* main loop: get and send lines of text */ 
while (fgets(buf, sizeof(buf). stdin)) | 
buf [MAX_LINE-1] = '\0'; 
len = strlen(buf) + 1; 
send(s, buf, len, 0); 


| 


2. WR as 

服务 器 也 很 简单 。 首 先 构造 地 址 数据 结构 ， 填 上 自己 的 端口 号 (SERVER _ PORT). 
但 它 并 不 指明 IP 地 址 ， 从 而 使 应 用 程序 可 以 接受 来 自 本 地 主机 的 任何 一 个 卫 地址 的 连 
接 。 下 一 步 ， 服 务 器 执行 被 动 打开 连接 的 预备 步骤 : 创建 套 接 字 、 将 它 绑 定 到 本 地 地 址 、 
设置 允许 连接 的 最 大 数目 。 最 后 ， 主 循环 等 待 来 自 远程 主机 的 连接 。 当 发 生 一 个 连接 时 ， 
它 就 接收 并 输出 从 连接 上 送 达 的 字符 。 


#include <stdio.h> 
#include <sys/types.h> 
#include <sys/socket.h> 
#include <netinet/in.h> 
#include <netdb.h> 


#define SERVER_PORT 5432 
#define MAX_PENDING 5 
#define MAX_LINE 256 


int 
main() 
{ 
struct sockaddr_in sin; 
char buf [MAX_LINE]; 
int len; 
int s, new_s; 


/* build address data structure */ 
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erot (char «)&sin. sizeofisin) 
n.sin_family = AF_INET; 
addr .5 addr = INADDR_ANY;: 
n_port = htonsLSERVER_PORT); 
et 
= ket _INET OCK EAM ))) ) 
rror ex-talk: cket 
exit(l 
((bind(s, struct sockaddr *)&sin, sizeof(sin))) < 0) 
perror("“simplex-talk: bind"); 
e t 
te _PENE 
+ wait for connection, then receive and print text * 
who 7 
(new_s = acceptis, (struct sockaddr +)&sin, &len)) < 0) 1 
rr n talk: a t 
it ( 
while len = recv(new_s, buf, sizeof(buf), 0)) 


fputs(buf, stdout); 
close(new_s) 


1.5 性 能 

日 前 ,我 们 的 注意 力主 要 集中 在 网 络 功能 方面 。 与 任何 一 个 计算 机 系统 一 样 ， 计 算 机 
网 络 也 应 具有 良好 的 性 能 ， 央 为 分 布 式 网 络 计 算 的 效率 通常 直接 依赖 于 网 络 传输 数据 的 效 
率 。 有 一 名 古老 的 编程 格言 ,“ 先 使 它 正 确 ， 再 侦 它 快速 "， 虽 然 在 许多 情况 下 都 有 效 ， 但 是 
在 网 络 中 ,通常 需 要 “为 性 能 而 设计 ”。 因 此 ， 了 解 各 种 影响 网 络 性 能 的 因素 是 很 重要 的 。 


1.5.1 带宽 和 时 延 


网 络 性 能 有 两 种 基本 度量 方法 : 带宽 (bandwidth) (也 称 为 香 吐 量 (throughput) ) 
和 时 延 (lateney) (也 称 为 延迟 (delay))。 网 络 的 带宽 是 在 一 段 特定 的 时 间 内 网 络 所 能 传 
得 的 比特 数 。 例如， 一 个 网 络 带宽 为 10Mbps， 就 意味 着 每 秒 能 传输 1 千 万 个 比特 。 有 时 
候 ， 从 传输 每 个 比特 所 花 时 间 长 短 的 角度 来 分 析 带 宽 也 是 很 有 用 的 。 例如， 在 一 个 
10Mbps 的 网 络 上 ， 传输 每 个 比特 用 0. Ts. 

虽然 我 们 可 以 将 网 络 的 带宽 作为 一 个 整体 来 讨论 ， 但 有 时 需要 更 准确 些 ， 例 如 重点 考 
点 一 条 物理 链 路 的 带宽 或 者 一 条 进程 到 进程 的 迎 辑 信道 的 带宽 ， 在 物理 层 ， 带 宽 不 断 提 
高 ， 无 法 预测 它 的 上 限 。 直 观 地 说 ， 如 果 将 1s 看 作 可 测量 的 一 段 距离 ， 同 时 把 带宽 看 作 
在 这 段 距离 中 可 以 容纳 的 比特 数 ， 那 么 就 可 将 每 个 比特 看 作 具 有 一 定 宽度 的 脉冲， 例如 ， 
在 一 条 1Mbps 的 链 路 上 ， 每 个 比特 lus 宽 ， 而 在 一 条 2Mbps 的 链 路 上 ， 每 个 比特 0. Sus 
宽 ， 如 图 1-16 Mam. Beaks AMAR WN BR AR AES ES EE RRS BORE. 4B SE RR 
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大 。 对 于 进程 到 进程 的 轴 辑 信道 ， 带 宽 也 受 其 他 因素 的 影响 ,包括 信道 实现 软件 必须 处 理 
并 可 能 转换 数据 的 每 个 比特 的 次 数 。 





| --- | 
1 秒 
a) VAL Mbps 传 输 的 比特 数 ( 每 比特 1ps 宽 ) 


| j 
r a 1 


1 秒 
b) 以 2 Mbps 传 输 的 比特 数 ( 每 比特 0.5hs 宽 ) 


图 1-16 以 特定 带宽 传输 的 比特 可 以 看 作 具 有 一 定 的 宽度 





相关 主题 

带宽 和 吞吐 量 

带宽 (bandwidth) 和 吞吐 量 (throughput) 是 网 络 中 最 容易 混淆 的 两 个 词 。 虽 然 我 
们 可 以 试图 给 每 个 词 下 一 个 精确 的 定义 ， 但 重要 的 是 知道 别人 怎么 使 用 这 两 个 词 ， 并 且 知 
道 它 们 如 何 互 换 。 首 先 ， grin ile Mee ti 例如 音频 级 电话 线路 ， 支 持 
300~3300Hz 范围 内 的 频带 ， 那 么 就 说 它 的 带宽 为 3300Hz 一 300Hz 二 3000Hz。 如 果 你 看 
到 带宽 一 词 在 某 个 情况 下 以 Hz serials 那么 它 可 能 是 指 能 容纳 信号 的 范围 。 

当 我 们 讨论 通信 和 链 路 的 带宽 时 ， 一 般 是 指 链 路 上 每 秒 所 能 传输 的 比特 数 ， 有 时 也 称 作 
数据 率 (data rate)。 我 们 可 以 说 一 个 以 太 网 的 带宽 是 10Mbps。 但 是 ,我 们 也 可 以 做 一 
有 用 的 区 分 ， 即 区 分 链 路 上 的 可 用 带宽 与 链 路 中 每 秒 实际 传输 的 比特 数 。 我 们 倾向 于 用 知 
吐 量 一 词 来 表示 一 个 系统 的 测量 性 能 (measured performance)。 这 样 ， 由 于 受到 实现 中 各 种 
低 效率 因素 的 影响 ， 由 一 段 带宽 为 10Mbps 的 链 路 连接 的 一 对 节点 可 能 只 达到 2Mbps 的 吞吐 
量 。 这 就 意味 着 ， 一 台 主 机 上 的 应 用 程序 能 够 以 2Mbps 的 速度 向 另 一 台 主 机 发 送 数据 。 

最 后 ， 我 们 经 常 谈 论 应 用 的 带宽 需求 requirement)， 它 是 应 用 得 以 执行 而 需要 在 网 
络 上 每 秒 传 输 的 比特 数 。 对 某 些 应 用 来 说 ， 它 可 能 是 “所 有 我 能 获得 的 〈 带 宽 )”， 对 另 一 
些 应 用 来 说 ， 它 可 能 是 某 个 固定 的 数值 〈 最 好 不 超过 可 用 链 路 带宽 )， 而 对 其 他 应 用 来 说 ， 
它 可 能 是 一 个 随时 间 变 化 的 数值 。 本 节 还 将 提供 有 关 这 个 主题 的 更 多 信息 。 








第 二 个 度量 性 能 的 尺度 是 时 延 ， 它 对 应 于 将 一 条 消息 从 网 络 的 一 端 传 到 另 一 端 所 需 花 
费 的 时 间 。( 像 解释 带宽 时 一 样 ， 我 们 也 可 以 将 讨论 重点 放 在 单条 链 路 的 时 延 或 端 到 端 信 
道 的 时 延 上 。) 时 延 是 严格 用 时 间 来 测量 的 。 例 如 ， 一 个 横贯 北美 大 陆 的 网 络 可 能 有 24ms 
的 时 延 ， 即 一 条 消息 从 北美 的 一 端 传 到 另 一 端 将 花费 24ms。 在 很 多 情况 下 ， 更 重要 的 是 
知道 一 条 消息 从 网 络 的 一 端 传 到 另 一 端 并 返回 所 花费 的 时 间 ， 而 不 只 是 单程 的 时 延 。 我 们 
称 它 为 网 络 的 往返 时 间 (round-trip time. RTT). 

我 们 通常 认为 时 延 有 三 个 组 成 部 分 。 第 一 个 是 光速 传播 延迟 ， 发 生 这 种 延迟 的 原因 是 
没有 什么 (包括 电线 上 的 一 个 比特 ) 能 比 光 的 传播 速度 更 快 。 如 果 知 道 两 点 间 的 距离 ， 就 
可 以 计算 出 光速 的 时 延 ， 然 而 必须 注意 光 在 不 同 介质 中 以 不 同 的 速度 传播 : 它 在 真空 中 以 
3.0% 108 m/s 的 速度 传播 ， 而 在 电缆 中 的 传播 速度 是 2. 3X10*m/s， 在 光纤 中 的 传播 速度 
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是 2.0X10*m/s。 第 二 个 是 发 送 一 个 数据 单元 花费 的 时 间 ， 它 是 网 络 带宽 和 运载 数据 的 分 
组 的 大 小 的 函数 . 第 三 个 是 网 络 内 部 的 排队 延迟 .因为 分 组 交换 机 在 将 分 组 转发 出 去 之 前 
通常 需要 将 它 存储 一 段 时 间 ， 如 1. 2. 3 节 讨 论 的 那样 。 因 此 ， 我 们 定义 总 时 延 为 : 
Latency =Propagation+ Transmit Queue 
Propagation = Distance/SpeedOfLight 
Transmit = Size/ Bandwidth 
其 中 ，Distance 是 数据 需要 穿越 的 线路 长 度 ，SpeedOfLight 是 光 在 线路 中 的 有 效 速度 ， 
Size 是 分 组 的 大 小 ，Bandwidth 是 传输 分 组 的 带宽 。 注意 ,假设 消息 只 包括 1 比特 且 我 们 
讨论 单条 链 路 〈 而 不 是 整个 网 络 ) 的 情况 ,那么 Transmit 和 Queue 的 定义 就 无 关 紧 要 了 ， 
时 延 只 与 传播 延迟 有 关 。 

带宽 和 时 延 结合 起 来 定义 了 一 个 给 定 链 路 或 信道 的 性 能 特征 ， 然 而 它们 的 相对 重要 性 
是 依赖 于 应 用 的 。 对 有 些 应 用 来 说 ， 时 延 比 带宽 重要 。 例 如 ， 客 户 发 送 1 字 节 消息 给 服务 
圳 并 接收 返回 的 1 字 节 消息 是 受 时 延 限制 的 。 假 设 在 准备 应 答 的 过 程 中 没有 大 量 的 计算 
那么 应 用 程序 在 一 个 横贯 大 陆 的 100ms RTT 的 信道 上 与 在 一 个 穿 过 房间 的 [ms RTT 信道 
上 的 执行 有 很 大 不 同 。 尽 管 信道 是 1Mbps 还 是 100Mbps 相对 来 说 并 不 重要 ， 但 是 前 者 意 
味 着 传输 1 字 节 的 时 间 (Transmit) 是 8ys， 而 后 者 的 传输 时 间 是 0. 08ps。 

对 比 之 下 ,考虑 一 个 数字 化 图 书馆 程序 要 获取 一 幅 25MB 的 图 像 ， 带 宽 越 宽 ， 向 用 户 
返回 图 像 的 速度 也 就 越 快 。 这 里 ， 信 道 的 带宽 决定 性 能 。 为 了 说 明 这 种 情况 ， 假 设 信道 带 
宽 为 10Mbps， 那 么 它 将 花 20s ((25 10° X 8bit) + (10X105Mbps) =20s) 完成 图 像 传 
输 ， 而 图 像 是 在 lms 还 是 100ms 的 信道 上 传输 相对 来 说 并 不 重要 ，20. 001s 与 20. 1s 的 响 
应 时 间 之 间 的 差别 是 可 以 忽略 的 。 

图 1-17 显示 了 在 不 同 的 情况 下 时 延 或 带宽 如 何 决定 性 能 。 在 RTT 为 1 ~100ms 的 范 
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图 1-17 在 不 同 速率 的 链 路 上 传输 不 同 大 小 对 象 的 时 延 〈 响 应 时 间 ) 与 往返 时 间 的 对 比 





围 内 ， 链 路 速度 是 1. SMbps 或 10Mbps 的 网 络 中 转移 不 同 大 小 的 对 象 CIB, 2KB, 1MB) 
所 花 的 时 间 。 我 们 用 对 数 比例 来 说 明 相 对 性 能 。 对 于 1 字 节 的 对 象 ( 如 一 次 击 键 )， 时 延 
基本 等 于 RTT， 因 此 无 法 区 别 1. 5Mbps 和 10Mbps 的 网 络 。 对 于 2KB 的 对 象 (如 一 封 电 
子 邮 件 )， 链 路 速度 对 lms RTT 网 络 的 影响 较 大 ， 而 对 100ms RTT 网 络 的 影响 可 忽略 
而 对 于 1MB 的 对 象 (如 一 幅 数 字 图 像 )，RTT 没有 任何 影响 ， 即 无 论 RTT 是 多 少 ， 部 是 
链 路 速度 决定 性 能 。 

注意 ， 本 书 始终 按 惯例 使 用 术语 时 延 (latency) 和 延迟 (delay)， 即 用 它们 来 描述 完 
成 某 一 功能 的 时 间 ， 如 传输 一 条 消息 或 转移 一 个 对 象 所 花 的 时 间 。 当 我 们 特 指 一 个 信号 从 
链 路 的 一 端 传播 到 另 一 端 所 用 的 时 间 时 ， 我 们 使 用 术语 传播 延迟 (propagation delay). It 
外 ,我 们 要 在 讨论 的 上 下 文中 分 清 是 指 单程 时 延 还 是 往返 时 间 ， 

另外 ， 计 算 机 正 变 得 如 此 之 快 ， 以 至 于 当 我 们 将 其 连 到 网 络 上 时 ， 有 时 候 按 指令 去 
英里 (instructions per mile) 来 考虑 〈 哪 怕 是 象征 性 的 ) 也 是 有 用 的 。 考 虑 一 个 每 秒 执行 
10 亿 条 指令 的 计算 机 向 一 条 RTT 为 100ms 的 信道 发 出 一 条 消息 ， 情 况 将 会 怎样 。 (为 了 
使 计算 更 容易 ， 假 设 消息 穿越 5 000 英里 的 距离 .) 如 果 计 算 机 在 等 待 应 签 信息 的 100ms 
内 保持 空闲 ， 那 么 它 就 少 执行 1 亿 条 指令 ,或 者 说 每 英里 少 执行 20 000 条 指令 。 网 络 上 的 
这 种 浪费 是 很 值得 我 们 反思 的 。 


1.5.2 延迟 带宽 积 


讨论 这 两 种 度量 的 乘积 也 是 很 有 用 的 ,通常 称 为 延迟 带宽 积 (delay X bandwidth 
product)。 直 观 地 说 ， 如 果 我 们 将 一 对 进程 之 间 的 信道 看 成 一 条 中 空 的 管道 ( 见 图 1-18). 
时 延 相 当 于 管道 的 长 度 ， 带 宽 相 当 于 管 延迟 


道 的 直径 ， 那 么 延迟 和 带宽 的 乘积 就 是 Se 
管道 的 容积 ， 即 在 任意 给 定 的 时 间 内 正 wa|( | 
在 通过 管道 传输 的 最 大 比特 数 。 换 一 种 
说 法 ， 如 果 时 延 ( 用 时 间 度 量 ) 相当 于 图 1-18 网 络 像 一 个 管道 
管道 的 长 度 ， 那 么 给 定 每 个 比特 的 宽度 (也 用 时 间 度 量 )， 就 可 以 计算 出 管道 中 能 容纳 多 
少 比 特 。 例 如 ， 一 条 横贯 大 陆 的 信道 ， 单 向 时 延 为 50ms， 带 宽 为 45Mbps. 则 能 够 容纳 
50X 107-3 sX 45 X10® bit/s=2. 25 X 10° bit 

或 近似 为 280KB 数据 。 换 言 之 ， 这 个 信道 〈 管 道 ) 所 容纳 的 字 节 数 相 当 于 20 世纪 80 年 代 
初 一 台 个 人 计算 机 的 内 存 所 能 容纳 的 字 节 数 。 

构造 高 性 能 网 络 时 知道 延迟 带宽 积 是 很 重要 的 ， 因 为 它 相 当 于 第 一 个 比特 到 达 接 收 者 
之 前 ， 发 送 者 必须 发 送 的 比特 数 。 如 果 发 送 者 希望 接收 者 给 出 比特 已 开始 到 达 的 信号 ， 而 
且 这 个 信号 返回 到 发 送 者 需要 经 过 另 一 个 信道 时 延 〈 即 我 们 对 信道 的 往返 时 延 比 单程 时 延 
更 感 兴趣 ) ， 那 么 发 送 者 在 接收 到 接收 者 发 出 的 信号 之 前 能 够 发 完 多 达 RTTX 带宽 的 数 
据 。 在 管道 中 的 比特 称 为 “在 飞行 中 "， 这 意味 着 如 果 接 收 者 告诉 发 送 者 停止 发 送 ， 那 么 
在 发 送 者 准备 响应 之 前 ， 接 收 者 可 能 已 经 收 到 大 小 为 RTTX 带 宽 的 数据 了 。 在 上 面 的 例 
Fp, 约 有 5.5X105 比 特 (671KB) 数据 。 另 一 方面 ， 如 果 发 送 者 设 有 填 满 管道 一 一 即 发 
送 数量 等 于 RTTX 带 宽 的 数据 后 才 停 下 来 等 信号 一 一 那么 发 送 者 就 不 能 充分 利用 网 络 。 

注意 ， 大 多 数 情况 下 我 们 对 RTT 感 兴 趣 ， 在 这 种 情况 下 ， 我 们 简单 地 称 之 为 延迟 带 
宽 积 ， 并 不 具体 地 说 明 这 个 “延迟 ”表示 RTT 〈 即 单程 延迟 乘 以 2)。 通 常 ， “延迟 带宽 
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积 ” 中 的 “延迟 ”是 否 表示 单程 时 延 由 上 下 文明 确 地 指出 。 表 1-1 提供 了 一 些 典 型 网 络 链 
接 的 延迟 带宽 积 的 实例 。 
表 1-1 延迟 带宽 积 实 例 


链 路 类 型 带宽 (典型 值 ) 距离 (典型 值 ) 往返 延迟 RIT X 带宽 



































56kbps | 10km 5bit 
FE EK Jey SK 54Mbps 50m 
卫星 | 45Mbps 35 000km 
跨国 光纤 10Gbps 4 000km 400Mb 
1M 有 多 大 ? 


当 我 们 用 到 关于 网 络 的 常见 单位 (MB, Mbps, KB@ kbps) H, GLASER. 
先 要 仔细 区 分 比特 (bit) 和 字 节 (byte)。 在 本 书 中 ， 我 们 总 是 用 b 表 示 比 特 ， 用 也 表 
示 字 节 。 其 次 ， 务 必要 正确 使 用 焰 (M) fF (K). flo, MEF 2K 10°, HM, k 
于 27 或 103。 糟 料 的 是 ， 网 络 中 通常 两 种 定义 都 用 ， 原 因 如 下 。 

网 络 带宽 通常 用 Mbps 指定 大 小 ， 它 是 由 控制 比特 传输 速度 的 时 钟 速度 来 决定 的 ， 
10MHz 的 时 钟 用 于 以 10Mbps 发 送 比特 。 因 为 MHz 中 的 M 等 于 1056Hz，Mbps 通常 也 定 
义 为 每 秒 105 比 特 (类似 地 ，kbps 是 每 秒 103 比 特 )。 另 一 方面 ， 当 讨论 要 发 送 的 消息 时 ， 
通常 以 KB 给 出 它 的 大 小 。 因 为 消息 存储 在 计算 机 内 存 中 ， 内 存 通常 以 2 的 军 次 方 度量 ， 
KB 中 的 K 通常 表示 219 (类 似 地 ，MB 通常 为 20)。 当 两 者 放 到 一 起 时 ， 时 常 说 在 
10Mbps 信道 上 发 送 32KB 消息 ， 这 可 以 解释 为 以 10X105 比 特 每 秒 的 速度 发 送 32X210X8 
比特 。 本 书 中 我 们 采用 这 种 解释 ， 除 非 男 有 明确 说 明 。 

好 在 大 多 数 情况 下 ， 我 们 对 这 种 快速 且 不 复杂 的 计算 感到 满意 ， 完 全 可 以 假想 105 就 等 
于 22 (使 得 M 的 两 种 定义 之 间 更 容易 转换 )， 这 种 近似 只 造成 5 中 的 误差 。 我 们 甚至 可 以 在 
某 些 情况 下 假设 1 字 节 有 10 比特 ， 这 会 造成 20 听 的 误差 ， 但 对 于 兆 级 的 估算 已 经 足够 好 了 。 

为 了 帮助 你 进行 粗略 计算 ，100ms 用 来 表示 横 穿 一 个 国家 的 往返 时 间 是 一 个 比较 合理 
的 数字 ， 至 少 在 讨论 美国 时 是 这 样 ，lms 则 是 横 穿 一 个 局 域 网 的 RTT 的 合理 近似 值 。 在 
前 一 种 情况 下 ， 我 们 把 由 ARH 定 的 在 光纤 上 传输 的 往返 时 间 从 48ms 增加 到 100ms. A 
为 ， 正 如 我 们 已 经 说 过 的 ， 还 会 有 其 他 造成 延 训 的 原因 ， 如 网 络 内 部 交换 机 的 处 理 时 间 。 
我 们 还 能 确信 两 点 之 间 的 光纤 不 是 一 条 直线 。 


首 


= 





1.5.3 高 速 网 络 


当今 网 络 的 可 用 带宽 正 以 惊人 的 速度 增长 ， 我 们 可 以 乐观 地 认为 它 将 永远 不 断 地 增长 
这 将 促使 网 络 设计 者 开始 思考 在 极限 情况 下 会 发 生 什么 事情 ， 或 者 从 另 一 方面 讲 ， 

如 果 带 宽 可 以 达到 无 限 ， 会 对 网 络 设计 产生 什么 影响 。 
尽管 高 速 网 络 使 应 用 可 获得 的 带宽 发 生 了 巨大 的 变化 ， 但 在 我 们 考虑 它 对 网 络 的 未 来 
所 产生 的 方方面面 的 影响 时 ， 要 注意 不 会 (not) 随 着 带宽 的 增加 而 变化 的 方面 : 光速。 
引用 《Star Trek》(《 星 际 旅行 》》 中 Scotty 的 话 来 说 ， “你 不 能 改变 物理 定律 ”。 换言之 ， 
“高 速 ” 并 不 意味 着 时 延 会 和 带宽 以 同样 的 比率 改善 ， 一 条 贯穿 大 陆 的 1Gbps 链 路 的 RTT 


30 a 有 








和 一 条 1Mbps 链 路 的 RTT 是 一 样 的 ， 都 是 100ms。 

虽然 时 延 是 固定 的 ， 但 持续 提高 带宽 非常 重要 ， 为 了 理解 这 一 点 ， 让 我 们 来 比较 一 下 
当 RTT 均 为 100ms 时 ,在 1Mbps 的 网 络 和 在 1Gbps 的 网 络 上 传输 一 个 1MB 的 文件 分 别 
需要 什么 。 在 1Mbps 的 网 络 中 ， 用 80 个 RTT 来 传输 文件 ， 每 个 RTT 传输 文件 的 
1. 25%。 对 比 之 下 ， 同 样 一 个 1MB 的 文件 在 1Gbps 的 链 路 上 ， 甚 至 不 足以 填 满 一 个 RTT 
的 值 ， 它 的 延迟 带宽 积 为 12. 5MB。 

图 1-19 说 明了 两 个 网 络 的 不 同 。 事 实 上 ， 需要 传输 的 1MB 的 文件 ， 在 1Mbps 的 网 络 
上 像 一 个 数据 流 ， 而 在 1Gbps 的 网 络 上 则 仅 像 一 个 分 组 而 已 。 为 了 使 问题 更 清楚 ， 可 以 认 
为 1MB 的 文件 对 于 Gbps 的 网 络 而 言 ， 就 像 1KB 的 分 组 对 于 1Mbps 的 网 络 一 样 。 





1MB 数 据 ==80 条 管道 























1Mbps 跨 国 链 路 
a 
1Gbps 跨 国 链 路 
| 
1MB 数 据 = 1 条 管道 的 1/12 |- 一 
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图 1-19 带宽 和 时 延 之 间 的 关系 。 一 个 1MB 的 文件 将 占用 
1Mbps 链 路 80 次 ， 但 仅 占用 1Gbps 链 路 1/12 次 


结论 考虑 这 种 情况 的 另 一 种 方法 是 ， 在 高 速 网 络 上 每 个 RTT 内 能 够 传 给 更 多 

的 数据 ， 传 输 速 度 如 此 高 ， 以 至 于 单个 RTT PRAT RAM HME. Ak. BR 

然 不 必 考 虑 用 101 ARTT 与 用 100 个 RTT 的 文件 传输 之 间 的 区 别 (相对 差别 仅 

为 1%), 但 1 个 RTT 与 2 个 RTT 之 间 的 区 别 却 很 大 增加 了 100%。 换 自 话 

说 ， 我 们 在 网 络 设计 时 考虑 的 主要 因素 应 是 时 延 而 不 是 吞吐 量 。 

或 许 理解 吞吐 量 和 时 延 的 关系 的 最 好 方法 还 是 从 基础 开始 。 在 网 络 上 可 获得 的 有 效 端 
到 端 吞吐 量 由 下 面 的 简单 关系 式 给 出 : 

Throughput= TransferSize/TransferTime 
其 中 TransferTime 不 仅 包括 本 节 前 面 讲 到 的 单程 Latency， 而 且 还 包括 请 求 或 建立 传输 的 
附加 时 间 。 通 常 ， 我 们 用 下 式 表达 它们 的 关系 : 
TransferTime=RTT+1/Bandwidth X TransferSize 
本 式 中 ， 我 们 用 RTT 表示 在 网 上 发 一 条 请 求 消息 并 返回 数据 的 时 间 。 例 如 ， 考 虑 这 样 的 
情况 : 在 1Gbps 的 网 络 上 ， 用 户 要 获取 一 个 1MB 的 文件 ， 其 往返 时 间 为 100ms。Trans 
ferTime 包括 1MB 的 传输 时 间 (1/1GbpsX1MB=8ms) 和 100ms 的 RTT， 总 的 传输 时 间 
为 108ms。 这 意味 着 有 效 吞 吐 量 不 是 1Gbps， 而 是 
1MB/108ms=74. 1Mbps 

显然 ， 传 输 更 大 量 的 数据 有 助 于 提高 有 效 香 吐 量 ， 而 在 极限 条 件 下 ,传输 数据 量 无 限 大 
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时 ， 有 效 吞吐 量 将 接近 网 络 带宽 。 另 一 方面 ， 有 时 不 得 不 承受 多 于 一 个 RIT 的 传输 时 间 
(例如 重 传 丢 失 的 分 组 )， 这 会 降低 任何 有 限 数据 量 传输 的 有 效 吞 吐 量 ， 尤其 是 小 数据 量 传 
输 的 有 效 吞 吐 量 。 


1.5.4 应 用 程序 性 能 需求 

本 节 的 讨论 以 网 络 运行 的 效率 为 中 心 展 开 ， 也 就 是 说 ， 我们 讨论 一 条 给 定 的 链 路 或 信 
道 能 支持 什么 。 在 未 加 说 明 的 情况 下 ,假设 应 用 程序 有 简单 的 需要 一 一 它们 所 需 的 带宽 为 
网 络 所 能 提供 的 带宽 。 这 对 于 前 面 提 到 的 数字 化 图 书馆 程序 获取 一 幅 25MB 图 像 的 例子 来 
说 ， 显 然 是 成 立 的 ， 可 用 带宽 越 宽 ， 程 序 将 图 像 回 送 给 用 户 的 速度 就 越 快 。 

然而 ， 一 些 应 用 能 指明 它们 需要 的 带宽 上 限 ， 视 频 应 用 程序 是 一 个 典型 例子 ， 假 设 你 
想 播放 一 个 视频 图 像 流 ， 而 它 的 大 小 是 标准 电视 图 像 的 1/4， 也 就 是 说 ， 它 的 分 辩 率 是 
352 像素 X 240 像素 。 如 果 每 一 个 像素 是 由 24 比特 的 信息 表示 的 ， 就 像 24 位 色彩 一 样 ， 
那么 每 一 帧 的 大 小 将 是 

(352 X 240 X 24) /8=247. 5KB 

如 果 一 个 视频 应 用 程序 需要 每 秒 发 送 30 Hw. ASAE AT HE BECK 75Mbps 的 吞吐 量 。 这 种 应 用 对 
网 络 提供 更 多 带宽 的 能 力 没 有 兴趣 ， 因 为 在 一 个 给 定时 间 周 期 内 它 只 有 那么 多 数据 要 发 送 。 

不 幸 的 是 ， 实 际 情况 并 不 像 这 个 例子 所 描述 的 那么 简单 。 因 为 在 一 个 视频 流 中 ， 任 何 
两 个 相 邻 帧 之 间 的 差别 通常 非常 小 ， 可 以 通过 只 传输 相 邻 帧 之 间 的 差别 而 将 视频 压缩 。 每 
一 帧 也 可 以 被 压缩 ， 因 为 人 眼 无 法 察觉 图 像 中 的 所 有 细节 。 这 种 压缩 视频 的 流动 不 是 匀速 
的 ， 而 是 根据 动作 的 数量 、 图 片 的 细节 以 及 所 使 用 的 压缩 算法 随 着 时 间 变 化 。 因 此 ， 可 以 
说 平均 带宽 需求 是 多 少 . 但 瞬时 速率 则 可 能 大 一 些 或 小 一 些 。 

关键 的 问题 是 计算 平均 值 时 使 用 的 时 间 间 隔 。 假 设 该 视频 应 用 实例 能 被 压缩 到 平均 只 
mi 2Mbps。 如 果 它 在 ls 内 发 送 1Mb， 而 在 下 一 秒 内 发 送 3Mb， 那 么 这 2s 间隔 内 它 发 送 的 
平均 速率 是 2Mbps。 然 而 ， 这 对 设计 在 任 一 秒 内 不 超过 2Mb 的 信道 而 言 没 有 多 少 帮助 。 
显然 ， 只 知道 一 个 应 用 所 需 的 平均 带宽 有 时 是 不 够 的 。 

然而 ， 一 般 我 们 可 以 为 这 种 应 用 所 发 送 的 最 大 突 发 量 设 定 一 个 上 界 。 这 种 突 发 量 可 由 
某 段 时 间 内 保持 的 峰值 速率 来 描述 ， 或 者 可 以 被 描述 为 在 转 为 平均 速率 或 一 个 更 低 的 速率 
之 前 能 以 峰值 速率 发 送 的 字 节 数 。 如 果 这 个 峰值 速率 比 可 用 信道 容量 高 ， 那么 超出 的 数据 
不 得 不 被 放 人 某 处 的 缓冲 区 ， 以 备 以 后 发 送 。 知 道 突 发 量 的 大 小 可 以 使 网 络 设计 者 分 配 足 
人 够 的 缓冲 区 来 容纳 它 。 我们 将 在 第 6 章 更 准确 地 描述 突 发 流量 这 个 主题 。 

正如 应 用 对 带宽 的 需求 可 能 不 是 “能 得 到 的 全 部 带宽 "， 应 用 对 延迟 的 要 求 也 可 能 不 
是 “ 尽 可 能 少 的 延迟 ”那么 简单 。 说 到 延迟 ， 有 时 网 络 的 单程 时 延 是 100ms 还 是 500ms 
并 不 如 分 组 间 时 延 的 变化 邢 么 重要 。 时 延 的 这 种 变化 称 为 拌 动 Gitter). 

萎 虑 源 端 每 33ms 发 送 一 个 分 组 的 情况 ， 这 正 是 视频 应 用 中 每 秒 传输 30 帧 的 情况 。 如 
果 帧 恰好 每 阳 33ms 到 达 目 的 地 ， 那 么 我 们 可 以 推断 ， 网 络 中 每 个 分 组 经 过 的 延迟 恰好 相 
同 。 然 而 ， 如 果 分 组 到 达 目 的 地 的 间隔 有 时 称 为 分 组 间距 Cinter-packet gap) 一 一 是 
变化 的 ， 那 么 分 组 的 序列 所 经 历 的 延 述 一 定 也 是 变化 的 ， 称 为 网 络 在 分 组 流 之 间 有 抖动 ， 
如 图 1-20 所 示 。 这 种 变化 通常 不 是 由 单条 物理 链 路 引起 的 ， 而 是 在 多 跳 分 组 交换 网 中 由 
分 组 经 历 的 不 同 排队 延迟 引起 的 。 排 队 延 迟 相 当 于 本 节 前 面 定义 的 延迟 中 的 Queue 部 分 ， 
它 是 随时 间 变 化 的 。 
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图 1-20 由 网 络 引起 的 抖动 


为 了 理解 与 抖动 相关 的 内 容 ， 假 设 网 络 中 传输 的 分 组 含有 视频 帧 ， 为 了 在 屏 落 上 显示 
这 些 帧 ， 接 收 器 需要 每 隔 33ms 接收 一 个 新 帧 。 如 果 一 个 帧 提前 到 达 , 那么 接收 带 会 将 它 
保存 到 需要 显示 的 时 候 。 然 而 ， 如 果 一 个 帧 迟到 了 ， 那 么 接收 者 将 没有 所 需 的 帧 来 及 时 章 
新 屏幕 ， 视 频 质 量 就 会 下 降 ， 夯 面 可 能 不 平滑 。 注 意 ， 我们 不 必 消 除 拌 动 ， 只 要 知道 它 的 
最 坏 程 度 即 可 。 因 为 如 果 接 收 器 知道 一 个 分 组 所 经 历 的 延迟 的 上 界 和 下 界 ， 就 可 以 将 视频 
的 开始 〈 即 显示 第 一 帧 ) 推迟 足够 长 的 时 间 ， 以 保证 将 来 需要 时 总 有 帧 显示 。 n 
将 这 个 帧 存放 在 缓冲 区 中 实现 帧 延迟 以 有 效 地 平滑 抖动 。 第 9 ERSE E) o 


1.6 小 结 


计算 机 网 络 ， 特 别 是 因特网 ， 在 过 去 的 30 FPA TR HMA. MECZE 
够 提供 从 管理 商业 到 提供 娱乐 到 建立 社交 网 络 的 广泛 服务 。 能 够 取得 这 样 的 发 展 很 大 程度 
上 归功 于 计算 机 网 络 的 通用 性 ， 特 别 是 能 够 通过 编写 运行 在 不 太 昂贵 的 高 性 能 计算 机 上 的 
软件 来 为 网 络 添加 新 的 功能 。 因 此 ， 本 书 最 主要 的 目标 就 是 按照 这 样 一 种 方法 来 描述 计算 
机 网 络 : 当 你 读 完 本 书 时 将 会 感觉 到 ， 如 果 有 一 支 程序 员 队 伍 由 你 指挥 ， 你 就 能 够 从 头 建 
立 一 个 具备 完整 功能 的 计算 机 网 络 。 本 章 为 实现 这 个 目标 葛 定 了 基础 。 

实现 这 个 目标 的 第 一 T ERASE REGEERT A 。 例 如 ， 网 络 首先 
必须 在 一 组 计算 机 之 间 提 供 高 性 价 比 的 可 扩展 的 连接 。 这 是 通过 节点 和 链 路 的 髓 套 互 联 $ 
完成 的 ， 并 通过 使 用 统计 多 路 复 用 来 共享 硬件 基础 设施 。 这 样 就 得 到 一 个 分 组 交换 网 ， 
后 我 们 在 它 上 面 定义 一 系列 进程 到 进程 的 通信 服务 。 

第 二 步 是 定义 一 个 分 层 的 体系 结构 ， 作 为 我 们 的 设计 蓝图 。 这 个 体系 结构 的 核心 对 象 
是 网 络 协 议 。 协 议 既 向 较 高 层 协议 提供 通信 服务 ， ep ek 
实体 之 间 交 换 信息 的 格式 和 含义 。 我 们 简单 地 探讨 了 两 种 使 用 最 广泛 的 体系 结构 : OSI 体 
系 结构 和 因特网 体系 结构 。 无 论 是 组 织 结构 还 是 实例 来 源 ， 本 书 更 贴近 因特网 体系 结构 

第 三 步 是 实现 网 络 协议 和 应 用 程序 ， 它 通常 由 软件 来 完成 。 不 论 协议 还 是 应 用 ， 都 直 

一 个 接口 ， 它 们 通过 这 个 接口 调用 网 络 子 系统 中 其 他 协议 的 服务 。 在 应 用 程序 和 网 络 十 
ee he 但 它 与 网 络 子 系统 内 部 常用 的 接口 有 一 些微 小 
差别 。 

最 后 ， 网 络 作为 一 个 整体 必须 提供 高 性 能 ， 其 中 ,我们 最 关心 的 两 个 性 能 指标 是 党 沉 
= 正如 我 们 将 在 后 面 几 章 中 会 看 到 的 那样 ， 正 是 这 两 个 指标 的 乘积 一 一 延迟 带宽 
一 一 在 协议 设计 中 起 着 决定 性 作用 。 


接 下 来 会 发 生 什 么 : 云 计 算 
毫 无 疑问 ， 计 算 机 网 络 正成 为 许多 人 日 常生 活 的 一 部 分 。 从 40 多 年 前 像 APPANET 
(通过 长 途 电话 线 连接 大 型 计算 机 ) 这 样 的 实验 性 系统 开始 ， 到 如 今 计 算 机 网 络 已 经 变 成 











了 我 们 生活 中 普遍 存在 的 一 部 分 。 网 络 已 经 变 成 了 大 型 产业 ,哪里 有 大 型 产业 ， 哪 里 就 有 
众多 的 使 用 者 。 在 这 种 情况 下 诞生 的 计算 行业 已 经 越 来 越 多 地 参与 到 计算 和 通信 的 集成 
中 ; 电话 和 有 线 电 视 运营 商 也 认识 到 不 仅 要 发 展 语音 和 电视 业务 ， 还 要 开拓 传输 各 类 数据 
的 市 场 ; 另外 ,也 许 最 重要 的 是 大 量 企业 家 创建 了 基于 因特网 的 新 应 用 和 新 服务 ， 如 IP 
语音 (Voice Over IP，VOIP) 、 在 线 游戏 、 虚 拟 世 界 、 搜 索 服 务 、 内 容 托管 、 电 子 商务 
等 。 值 得 注意 的 是 ， 当 今 在 “ 云 计算 ”中 最 响亮 的 名 字 之 一 一 一 Amazon. com, C im te 4 
前 显赫 地 位 的 方法 是 ， 先 采用 因特网 技术 出 售 图 书 等 商品 ， 然 后 将 他 们 的 计算 架构 作为 网 
络 上 的 服务 提供 给 其 他 人 使 用 。 

多 年 前 ， 网 络 的 一 个 合理 目标 也 许 是 为 每 一 个 家 庭 提 供 网 络 接 入 ,但 至 少 是 在 发 达 国 
家 ， 这 个 过 程 已 经 很 久远 了 。 无 处 不 在 的 网 络 现在 允许 用 户 从 任何 地 方 访问 ， 包 括 在 飞机 
和 火车 上 ， 以 及 在 不 断 增加 的 各 类 设备 上 。 因 特 网 在 固定 主机 时 期 经 历 了 巨大 演变 ， 然 后 
是 个 人 电脑 时 期 ， 现 在 互联 起 来 的 设备 包括 移动 电话 以 及 传感器 〈 传 感 器 也 有 可 能 是 移动 
的 ) 等 更 小 的 设备 。 因 此 ,似乎 很 清楚 的 一 点 是 ， 因 特 网 不 得 不 继续 扩展 以 支持 比 现在 多 
几 个 数量 级 的 设备 ， 而 且 很 多 设备 是 移动 的 ， 它 们 可 能 通过 质量 变化 极 大 的 无 线 链 路 断 断 
续 续 地 连接 到 网 络 。 同 时， 这 些 设备 将 被 连接 到 大 型 数据 中 心 ， 其 中 包含 几 万 个 处 理 右 和 
许多 PB 字 节 的 存储 空间 ， 数 据 中 心 将 存储 和 分 析 所 产生 的 数据 ， 并 希望 实现 有 助 于 我 们 
管理 日 常生 活 的 更 强大 的 应 用 。 我 们 持 有 的 设备 通常 只 是 接 人 “ 云 ”( 云 是 用 于 存储 和 处 


理 文档 、 照 片 、 数 据 和 社交 网 络 等 内 容 的 不 固定 的 机 器 集合 ) 的 一 种 手段 ， 而 且 和 希望 能 够 
从 任何 地 方 接 入 。 


有 关 网 络 末 来 的 预言 有 一 个 趋势 ， 就 是 这 些 言 论 过 几 年 就 会 显得 很 傻 (好 多 高 调 的 预 
言 都 未 能 成 真 ， 如 因特网 将 濒临 崩溃 )。 我 们 能 够 确信 的 是 依然 存在 大 量 技 术 挑 战 一 一 连通 
性 、 可 管理 性 ， 可 扩展 性 、 可 用 性 、 性 能 、 可 靠 性 、 安 全 、 公 平 性 、 成 本 效益 等 。 当 前 的 技 
术 水 平 与 很 多 人 认为 的 全 球 无 处 不 在 的 异 构 网 络 之 间 已 经 很 接近 了 。 换 言 之 ， 网 络 领 域 非常 
活跃 ， 有 很 多 有 趣 的 问题 需要 解决 ， 这 些 问 题 以 及 解决 问题 的 工具 正 是 本 书 的 重点 。 


扩展 阅读 
计算 机 网 络 并 不 是 第 一 个 进入 社会 日 常生 活 的 面向 通信 的 技术 。 例 如 ，20 世纪 初 电 
话 的 出 现 ， 以 及 之 后 50 年 代 时 电视 的 普及 。 当 我 们 考虑 网 络 的 未 来 ， 即 它 将 分 布 得 多 么 
广 和 我 们 将 如 何 使 用 它 时 ， 研 究 它 的 发 展 历史 是 很 有 益 的 。 我 们 的 第 一 篇 参考 文献 是 研究 
网 络 的 一 个 好 的 起 点 ( 整 篇 文章 描述 了 电信 发 展 过 程 中 前 100 年 的 历史 ) 。 
第 二 篇 和 第 三 篇 文章 分 别 是 有 关 OSI 和 因特网 体系 结构 的 开创 性 文章 。 最 后 两 篇 文章 
不 是 针对 网 络 的 ， 但 却 提前 阐明 了 本 书 中 “系统 方法 ”的 观点 。Saltzer 等 人 的 文章 提供 并 
描述 了 系统 设计 中 使 用 最 广泛 的 规则 之 一 ， 即 端 到 端 观点 (end-to-end argument)， 这 篇 
文章 直到 今天 依然 保持 着 较 高 的 引用 率 。Mashey 的 文 音 描述 精简 指令 集 (Reduced In- 
struction Set Computer, RISC) 体系 结构 隐 含 的 思想 ， 正 如 我 们 即将 揭示 的 ， 将 功能 置 于 
一 个 复杂 系统 的 合适 位 置 正 是 系统 设计 所 要 解决 的 问题 。 
。 Pierce, J. Telephony—A personal view. IEEE Communications 22 (5): 116-120, 
May 1984. 
e Clark, D. The design philosophy of the DARPA Internet protocols. Proceedings of 
the SIGCOMM’88 Symposium, pages 106-114, August 1988. 
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e Saltzer, J., D. Reed, and D. Clark. End-to-end arguments in system design. ACM 
Transactions on Computer Systems 2 (4): 277-288, November 1984. 
e Mashey, J. RISC, MIPS, and the motion of complexity. UniForum 1986 Con fer- 
ence Proceedings, pages 116-124, February 1986. 
还 有 几 篇 文章 介绍 了 计算 机 网 络 : Stallings 给 出 有 关 这 个 题目 的 百科 全 书 式 的 叙述 ， 
重点 在 OSI 分 层 结构 的 低层 [Sta07]; Comer 给 出 对 因特网 体系 结构 的 综述 [Com05 | 
如 果 你 要 用 更 广阔 的 眼界 来 看 计算 机 网 络 ， 有 两 本 书 是 必须 读 的 ， 其 中 一 本 描述 过 
去 ， 男 一 本 展望 未 来 。 第 一 本 是 Holzmann 和 Pehrson 的 The Early History of Data Net- 
works [HP95]。 令 人 惊讶 的 是 ， 这 本 书 中 的 很 多 思想 是 18 世纪 提出 的 。 第 二 本 书 Reali- 
zing the Information Future: The Internet and Beyond， 由 美国 国家 研究 委员 会 的 计算 机 
科学 和 电信 部 LNRC94] 编写 。 
在 本 书 中 ， 我 们 努力 将 系统 方法 用 于 计算 机 网 络 领域 。 我 们 推荐 Saltzer 和 Kaashoek 
的 general treatment of computer systems LSK09]j]， 这 本 书 讲解 适用 于 网 络 以 及 其 他 系统 
的 很 多 重要 原理 。 操 作 系 统 对 网 络 的 很 多 方面 都 是 非常 重要 的 ，Tanenbaum | Tan07_ fë 
供 了 对 OS 概念 的 介绍 。 
若 要 从 头 追 溯 因 特 网 的 发 展 历 史 ， 读 者 应 当 仔细 阅 读 因 特 网 的 RFC (Request for Com- 
ments) 系列 文档 。 文 档 内 容 从 TCP 规范 到 思 人 和 节 和 笑话， 包罗 万 象 ， 获取 地 址 为 http: 
www. ietf. org/rfc. html, ijin, TCP, UDP 和 IP 的 协议 规范 分 别 是 RFC793、768 #791, 


生动 有 趣 。Padlipsky 给 出 对 网 络 早期 发 展 的 描述 ， 包 括 因 特 网 和 OSI 体系 结构 的 详细 比 
较 [Pad85]。 如 果 想 知道 此 后 在 因特网 工程 任务 组 (Internet Engineering Task Force. 
IETF) 中 真实 发 生 的 事情 ， 我 们 推荐 Boorsook 的 文章 [Boo95 |. 

有 大 量 的 文章 讨论 有 关 协 议 实 现 的 各 个 方面 。 有 关 协 议 实现 最 好 从 理解 两 个 完整 的 协 
议 实现 环境 开始 : KA System V Unix 的 流 机 制 [Rit84] 和 x- kernel [HP91]。 男 外 . 
[LMKQ89] 和 [SW95] 描述 了 使 用 广泛 的 Berkeley Unix 中 TCP/IP 的 实现 。 

更 为 普遍 的 是 ， 有 大 量 的 工作 致力 于 解决 构造 和 优化 协议 实现 的 问题 。Clark 是 最 早 
讨论 模块 化 设计 与 协议 性 能 之 间 关 系 的 人 之 一 LCla82]j。 后 来 的 文章 则 介绍 在 构造 协议 代 
码 时 向 上 调用 的 使 用 [Cla85] 及 研究 TCP 的 处 理 开销 LCJRS89j。 最 后 ，LWM87」 讲述 
如 何 通过 选择 适当 的 设计 和 实现 方案 来 获得 效率 。 

有 几 篇 文章 介绍 用 于 提高 协议 性 能 的 具体 技术 和 机 制 。 例 如 ， LHMPT89]」 讲述 r- 
kernel 中 用 到 的 一 些 机 制 ，[MD93]、[LVL87] 和 [LDP93] 也 描述 了 其 他 提高 协议 性 能 的 
技术 。 同 时 ，LBG93] 和 [NYKT94] 讨论 在 并 行 处 理 融 上 运行 的 协议 的 性 能 ， 在 这 种 环 
境 中 ， 加 锁 是 关键 的 问题 。 

最 后 ， 我 们 用 一 组 不 断 更 新 的 参考 文献 作为 每 一 章 中 “扩展 阅读 ” 一 节 的 结束 ， 也 就 
是 WWW 上 的 一 组 URL 地址， 从 中 可 以 了 解 与 该 章 所 讨论 主题 有 关 的 更 多 东西 。 由 于 参 
考 文献 是 不 断 更 新 的 ， 不 可 能 无 限期 地 保持 不 变 。 所 以 ,我 们 把 每 章 结 尾 的 网 址 集中 在 这 
样 一 些 站 点 上 ， 这 些 站 点 提供 软件 、 服 务 、 报 告 工作 组 或 标准 化 组 织 正 在 开展 的 活动 。 换 
言 之 ， 对 于 那些 不 易于 用 标准 引文 引用 的 材料 ， 我 们 只 给 出 其 URL。 本章 给 出 3 个 网 址 : 

。 http://mkp. com/computer-networks; 有 关 本 书 的 信息 ,包括 附录 、 补遗 等 。 

。 http://www. ietf. org/: 有 关 IETF 和 它 的 各 个 工作 组 的 信息 。 
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e http: //dblp. uni-trier. de/db/index. html: 可 搜索 有 关 网 络 研 究 论文 的 文献 目录 。 


习题 


— 


be 


w 


ow 


9. 


10. 


ll. 
12. 
13. 


. 使 用 匿名 FTP 连接 到 ftp. rfc. editor. org (in-notes 日 录 )， 获 取 RFC 索引 ， 同 时 获取 TCP, IP 和 UDP 


的 协议 规范 。 


- Unix TĦ whois 可 用 来 查找 一 个 组 织 对 应 的 域名 ， 或 查找 域名 对 应 的 网 络 地 址 。 阅 读 whois 的 主页 文 


档 并 试用 它 。 对 于 初学 者 ， 试用 whois princeton. edu 和 whois Princeton， 也 可 以 通过 http:// 


www. internic. net/ whois. html 研究 whois 接口 。 


. 计算 在 下 列 情况 下 传输 一 个 1 000KB 的 文件 所 需 的 总 时 间 ， 假 设 RTT 为 50ms， 分 组 长 度 为 IKB， 在 


数据 发 送 前 的 初始 “握手 ”时 间 为 2X RTT.。 

(a) 带宽 为 1. 5Mbps， 数 据 分 组 可 连续 发 送 。 

(b) 带宽 为 1. 5Mbps， 但 每 发 送 完 一 个 分 组 后 必须 等 一 个 RTT 后 再 发 送 下 一 个 分 组 。 

(c) 带宽 是 “无 限 的 "， 这 意味 着 我 们 可 以 认为 传输 时 间 为 0， 且 每 个 RTT 最 多 发 送 20 个 分 组 。 

D 带宽 是 无 限 的 ， 在 第 一 个 RTT 内 能 发 送 一 个 分 组 (2 1), 在 第 二 个 RTT 内 能 发 送 两 个 分 组 
(22°'), 在 第 三 个 RTT 内 能 发 送 四 个 分 组 (23 1)， 依 此 类 推 。( 我 们 会 在 第 6 章 中 给 出 指数 增长 
的 原因 ,) 


. 计算 在 下 列 情况 下 传输 一 个 1. SMB 的 文件 所 需 的 总 时 间 ， 假 设 RTT 为 80ms， 分 组 长 度 为 1KB， 在 数 


据 发 送 前 的 初始 “握手 ”时 间 为 2X RTT. 

(a) 带宽 为 10Mbps， 数 据 分 组 可 连续 发 送 。 

(b) 带宽 为 10Mbps， 但 发 送 完 每 个 分 组 后 必须 等 一 个 RTT 后 再 发 送 下 一 个 分 组 。 

Co) 链 路 允许 无 限 快 地 传输 ， 但 限制 带宽 使 每 个 RTT 最 多 能 发 送 20 个 分 组 。 

Cd) 和 (co) 一 样 ， 传 输 时 间 为 0， 但 在 第 一 个 RTT 内 能 发 送 一 个 分 组 ， 在 第 二 个 RTT 内 能 发 送 两 个 
分 组 ， 在 第 三 个 RTT 内 能 发 送 四 个 分 组 (23“!), 依 此 类 推 。( 我 们 会 在 第 6 章 中 给 出 指数 增长 
的 原因 ,) 


.考虑 一 个 长 度 为 4km 的 点 到 点 链 路 。 对 一 个 100 字 节 的 分 组 ， 带 宽 为 多 大 时 传播 延迟 (速度 为 2X 108 


m/s) 等 于 传输 延迟 ? 对 于 512 字 节 的 分 组 ， 情 况 如 何 ? 


“考虑 一 个 长 度 为 50km 的 点 到 点 链 路 。 对 一 个 100 字 节 的 分 组 ， 带 宽 为 多 大 时 传播 延迟 (速度 为 2X 


10sm/s) 等 于 传输 延迟 ?对 于 512 字 节 的 分 组 ,情况 如 何 ? 


邮政 地 址 的 哪些 特性 可 能 被 网 络 寻 址 方案 借鉴 使 用 ? 你 希望 找到 哪些 差别 ? 电话 号 码 的 哪些 特性 可 能 


被 网 络 寻 址 方案 借鉴 使 用 ? 


地 址 的 一 个 特性 是 唯一 性 ， 如 果 两 个 节点 有 相同 的 地 址 便 无 法 区 分 。 网 络 地 址 还 可 能 有 哪些 有 用 的 特 


性 ?你 能 想象 网 络 (或 邮政 、 电 话 ) 地 址 可 以 不 唯一 的 任何 情况 吗 ? 

给 出 一 个 适合 使 用 多 点 播送 地 址 的 例子 。 

STDM 是 语音 电话 网 络 有 效 的 多 路 复 用 形式 ， 而 FDM 是 电视 和 广播 有 效 的 多 路 复 用 形式 ， 它 们 在 通 
信和 模式 上 有 什么 不 同 ? 通用 的 计算 机 网 络 中 不 使 用 这 两 种 形式 是 由 于 性 价 比 低 的 原因 吗 ? 

在 1Gbps 的 链 路 上 1 个 比特 有 多 “ 宽 ”? 假设 传播 速度 为 2.3X10sm/s， 在 铜 线 上 1 个 比特 有 多 长 ? 
在 一 个 yMbps 的 链 路 上 传输 KB 的 数据 需要 花费 多 长 时 间 ? 用 工 与 y 比率 的 形式 给 出 答案 。 

假设 在 地 球 和 新 的 月 球 定居 地 之 间架 设 了 一 条 1Gbps 的 点 到 点 链 路 。 从 月 球 到 地 球 的 距离 大 约 是 
385 000km， 而 且 数 据 在 链 路 上 以 光速 传播 ， 即 3X 108 m/s。 

(a) 计算 链 路 的 最 小 RTT. 

(b) 使 用 RTT 作为 延迟 ， 计 算 链 路 的 延迟 带宽 积 ， 

Co) 在 b) 中 计算 的 延迟 带宽 积 的 意义 是 什么 ? 

Cd) 在 月 球 基 地 上 上 的 一 部 照相 机 拍摄 了 一 张 地 球 的 照片 ， 并 以 数字 的 形式 存 人 磁盘。 假设 地 球 上 的 任 
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20. 


务 控制 中 心 希望 下 载 最 新 的 图 像 ， 大 小 是 25MB。 计 算 从 发 出 h 求 到 传输 完毕 耗费 的 最 小 时 间 


: 假设 在 地 球 和 一 个 火星 探测 车 之 间架 设 了 一 条 128kbps 的 点 到 点 链 路 。 从 火星 到 地 球 的 距离 〈 当 它们 


离 得 最 近 时 ) 大 约 是 55Gm， 而 且 数 据 在 链 路 上 以 光速 传播 ， 即 3x 10*m/s。 

Ca) 计算 链 路 的 最 小 RTT。 

Ch) 计算 链 路 的 延迟 带宽 积 ， 

Co) 探测 车 上 的 一 部 照相 机 拍摄 周围 的 照片 ， 并 发 送 回 地 球 。 计算 从 拍 完 一 幅 图 像 到 这 幅 图 像 到 达 地 
球 上 的 任务 控制 中 心 所 用 的 时 间 。 假 设 每 幅 图 像 的 大 小 为 5MB。 


5. 对 于 下 面 列 出 的 在 远程 文件 服务 占 上 的 操作 ,讨论 它们 是 对 延迟 敏感 还 是 对 带宽 敏感 。 


(a) 打开 文件 。 

(b) 读 出 文件 的 内 容 。 
Cc) 列 出 目录 中 的 内 容 。 
Cd) 显示 文件 的 属性 。 


. 计算 下 列 情 况 的 时 延 〈 从 第 一 个 比特 发 送 到 最 后 一 个 比特 接收 ) : 


(a) 100Mbps 以 太 网 ， 其 路 径 上 有 一 个 存储 转发 式 交换 机 ， 分 组 长 度 为 12 000 比特 ,假设 每 条 链 路 
的 传播 延迟 为 10ns， 并 且 交 换 机 在 接收 完 分 组 后 立即 转发 分 组 。 

(b) 有 三 个 交换 机 ， 其 他 同 Cad. 

Co) 同 (a), 但 是 假设 交换 机 实现 “直通 式 ” 交 换 ; 可 以 在 收 到 分 组 的 前 200 比特 后 就 开始 转发 该 分 组 





. 计算 下 列 情况 的 时 延 〈 从 第 一 个 比特 发 送 到 最 后 一 个 比特 接收 ): 


(a) 1Gbps 以 太 网 ， 其 路 径 上 有 一 个 存储 转发 交换 机 ， 分 组 长 度 为 5 000 比特 。 假设 每 条 链 路 的 传播 
延迟 为 10ns， 并 且 交 换 机 在 接收 完 分 组 后 立即 开始 转发 该 分 组 

(b) 同 (a)， 但 是 有 三 个 交换 机 。 

Cc) 同 (b)， 但 是 假设 交换 机 实现 “直通 式 ” 转 发 : 可 以 在 收 到 分 组 的 前 128 比特 后 就 开始 转发 该 
分 组 。 


. 计算 下 列 情况 的 有 效 带 宽 。 对 于 (a) 和“(b)， 假设 要 发 送 的 数据 来 源 稳定 ; 对 于 (c)， 只 计算 12 个 


小 时 的 平均 值 。 

(a) 10Mbps 以 太 网 通过 三 个 存储 转发 交换 机 转发 ， 同 习题 16 (b) 中 的 情况 。 交 换 机 在 一 条 链 路 上 
接收 数据 的 同时 可 以 在 另 一 条 链 路 上 发 送 数据 。 

(b) 同 (a)， 但 是 发 送 方 在 每 发 12 000 比特 数据 分 组 后 必须 等 待 一 个 50 字 节 的 确认 分 组 。 

Cc) 100 个 DVD (每 个 4.7GB) 整 夜 (12 小 时 ) 传输 。 


， 计算 下 列 链 路 的 延迟 带宽 积 。 使 用 单 向 延迟 ， 按 从 第 一 个 比特 发 送 到 第 一 个 比特 接收 计算 。 


(a) 100Mbps 以 太 网 ， 延 迟 1Ops, 

(b) 100Mbps 以 太 网 ， 有 一 个 存储 转发 交换 机 ， 同 习题 16 Cb) 中 的 情况 ， 分 组 长 度 为 12 000 比特 。 
每 条 链 路 的 传播 延迟 为 10ys。 

(c) 1. 5Mbps T1 链 路 ， 贯 穿 大 陆 的 单 向 延迟 为 50ms。 

Cd) 通过 一 个 地 球 同步 轨道 卫星 的 1. 5Mbps T1 链 路 ， 卫 星 高 度 为 35 900km。 唯 一 的 延迟 为 从 地 球 到 
卫星 的 往返 光速 传播 延迟 。 

如 图 1-21 所 示 ， 主 机 A 和 也 分 别 通过 100Mbps 链 路 连接 到 交换 机 S 上 .每 条 链 路 的 传播 延迟 为 

20ps. S 是 一 个 存储 转发 式 设 备 ， 它 在 收 到 一 个 分 组 35ps 后 再 开始 将 其 转发 。 计 算 从 A BB RIK 

10 000 比 特 所 需 的 总 时 间 。 

(a) 作为 一 咎 分 组 。 

b) 作为 两 个 5 000 比特 的 分 组 一 个 紧 接 另 一 个 发 送 。 


图 1-21 习题 20 图 
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21. 假设 某 主 机 有 一 个 IMB 的 文件 要 发 送 给 另 一 台 主机 。 文 件 用 1s CPU 时 间 压 缩 50%， 或 者 用 2s 压缩 


60%. 
Cad 计算 当 带宽 为 多 少时 ,两 种 压缩 选择 的 压缩 时 间 十 传输 时 间 的 值 相等 。 
Cb) 解释 为 何 时 延 不 影响 你 的 答案 。 


22. 假设 某 一 通信 协议 的 每 个 分 组 用 于 首部 和 建立 帧 的 信息 开销 为 50 字 节 。 我 们 利用 此 协议 来 发 送 10° 


字 节 的 数据 ， 但 是 ， 分 组 中 一 旦 有 一 个 字 节 被 破坏 ， 包 含 该 字 节 的 整个 分 组 将 丢失 。 给 出 分 组 长 度 
分 别 为 1 000 字 节 、10 000 字 节 和 20 000 字 节 时 ,信息 开 销 与 丢失 字 节 的 总 数 。 分 组 长 度 为 哪个 值 
时 是 最 优 的 ? 


23. 假设 在 一 条 由 信 源 、 信 宿 、7 条 点 对 点 链 路 和 5 个 交换 机 组 成 的 网 路 上 传输 n 字 节 的 文件 。 假 设 每 条 


链 路 的 传播 延迟 为 2ms， 带 宽 为 4Mbps， 而 且 交 换 机 支持 电路 交换 和 分 组 交换 。 你 可 以 把 文件 分 割 

成 LKB 的 分 组 或 在 交换 机 之 间 建 立 起 一 个 电路 并 把 文件 作为 一 个 连续 的 比特 流 发 送 。 假 设 每 个 分 组 

有 24 字 节 的 分 组 首部 信息 和 1 000 字 节 的 有 效 载 荷 ， 而 且 每 个 交换 机 在 完全 收 到 一 个 分 组 后 对 分 组 

进行 存储 转发 的 过 程 会 引起 1ms 的 延迟 ， 分 组 可 以 被 连续 发 送 而 不 需要 等 待 确认 ， 建 立 电路 需要 发 

送 1KB 的 消息 ， 在 路 径 上 往返 一 次 在 每 个 交换 机 产生 lms 的 延迟 。 假 设 交 换 机 不 会 给 通过 电路 的 数 

据 带 来 延迟 。 也 可 以 假设 文件 大 小 是 1 000 字 节 的 整数 倍 。 

(a) 文件 大 小 为 多 少 个 字 节 时 ， 电 路 交换 在 网 络 上 发 送 的 总 字 节 数 少 于 分 组 交换 ? 

(b) 文件 大 小 为 多 少 个 字 节 时 ， 电 路 交换 使 整个 文件 到 达 目 的 地 时 产生 的 总 延迟 小 于 分 组 交换 ? 

(c) 以 上 结果 是 与 路 径 上 交换 机 的 数目 有 什么 关系 ”与 链 路 的 带宽 有 什么 关系 ? 与 分 组 首部 大 小 和 分 
组 大 小 之 比 又 有 什么 关系 ? 

(d) 本 题 给 出 的 网 络 模型 能 香 准 确 反 映 电路 交换 和 分 组 交换 的 优 缺 点 ?是否 忽略 了 使 这 两 种 交换 方式 
受到 质疑 的 重要 因素 ? 如 果 有 ， 这 些 因素 是 什么 ? 


. 考虑 一 个 闭环 网 络 (如 令 牌 环 )， 带 宽 为 100Mbps， 传 播 速 度 为 2X10s m/s。 假 设 节点 不 产生 延迟 ， 


环 的 周 长 为 多 少时 恰好 可 容纳 一 个 1500 字 节 的 分 组 ”如 果 每 100m 一 个 节点 ， 且 每 个 节点 的 延迟 为 
10 比特 ， 环 的 周 长 应 为 多 少 ? 


5. 根据 带宽 、 延 迟 和 抖动 ， 比 较 语音 传输 和 实时 音乐 传输 对 信道 的 需求 。 有 哪些 必须 要 改进 的 地 方 ? 


改进 幅度 大 约 是 多 少 ?” 可 耕 放 宽 对 任 一 种 信道 的 需求 ? 


“下列 情况 下 ,假设 不 对 数据 进行 压缩 ， 尽 管 这 在 实际 应 用 中 几乎 是 不 可 能 的 。 对 于 (a) ~ Ce), iF 


算 实时 传输 需要 的 带宽 ， 

(a) 视频 的 分 辩 率 为 640 像素 X480 像素 ，3B/ 像 素 ，30 Wi/s. 

Ch) 视频 的 分 辨 率 为 160 像素 X120 像素 ，1B/ 像 素 ，5 帧 /s。 

(c) CD 一 ROM 音乐 ， 假 设 CD 播放 75 分 钟 ， 大 小 为 650MB，。 

Cd) 假设 一 个 传真 机 以 每 英寸 72 像素 的 分 辨 率 发 送 一 幅 8 英寸 X 10 英寸 的 黑白 图 像 。 在 14. 4 kbps 
的 调制 解 调 器 上 需要 传输 多 长 时 间 ? 


27. 下 列 情况 下 ， 和 上 题 一 样 ， 假 设 不 对 数据 进行 压缩 。 计 算 实 时 传输 需要 的 带宽 : 


(a) HDTV 高 清晰 度 视频 ， 分 辨 率 为 1 920 像素 X1080 像素 ，24 位 /像素 ，30 帧 / 秒 ， 
(b) 8 比特 POTS (普通 的 电话 服务 ) 语音 音频 ， 采 样 频率 为 8SKHz。 

Ce) 260 比特 GSM 移动 语音 音频 ， 采 样 频 率 为 50Hz, 

Cd) 24 比特 HDCD 高 保 真 音频 ， 采 人 样 频率 为 88. 2KHz， 

根据 平均 带宽 、 峰 值 带宽 、 时 延 、 抖 动 和 丢失 容 限 ， 讨 论 与 下 列 应 用 相关 的 性 能 需求 ; 
(a) 文件 服务 器 。 

Cb) 打印 服务 器 。 

Cc) 数字 化 图 书馆 。 

(d) 远程 气象 设备 定时 监视 。 


(e) 语音 。 
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D 候车 室 视频 监视 。 
Cg) 电视 广播 。 


29. 假设 共享 介质 M 以 循环 方式 向 主机 Ar, As. «+, Ay 提供 传输 一 个 分 组 的 机 会 ， 没 有 分 组 要 传 的 主 


机 立即 放弃 M。 它 与 STDM 有 何不 同 ? 与 STDM 相 比 ， 这 种 方式 对 网 络 的 利用 率 如 何 ? 

考虑 在 链 路 上 传输 文件 的 一 个 简单 协议 。 经 过 一 些 初始 协商 后 ，A 向 避 发 送 长 度 为 1KB 的 分 组 ， 然 

后 B 回答 一 个 确认 信息 。A 在 发 送 下 一 个 数据 分 组 前 都 要 等 待 ACK， 这 就 是 我 们 熟知 的 停止 和 等 待 

(stop-and-wait)。 人 迟到 的 分 组 被 认为 已 丢失 并 重 传 。 

(a) 在 不 考虑 分 组 丢失 和 重复 的 情况 ， 说 明 为 何在 分 组 首部 中 不 需要 包括 任何 “序号 ”数据 ， 

Cb) 假设 链 路 偶尔 会 丢失 分 组 ,但 实际 到 达 的 分 组 总 是 按 发 送 的 顺序 到 达 。 对 于 A 和 B 而 言 ， 用 2 
比特 表示 序号 〈 即 N mod 4) 是 否 足 以 检测 并 重 发 任何 丢失 的 分 组 ”用 1 比特 序号 是 否 足够 ? 

Co) 现在 假设 链 路 可 以 无 序 地 传递 数据 ， 而 且 有 时 一 个 分 组 会 在 它 后 继 的 分 组 已 到 达 长 达 1 分 钟 以 后 
才 被 传输 。 这 种 情况 下 ， 对 序列 号 的 要 求 有 哪些 改变 ? 


. 假设 主机 A 和 主机 B 由 一 条 链 路 相连 。 主 机 A 以 一 定 的 速率 持续 地 传输 一 个 高 精度 时 钟 中 的 当前 时 


间 ， 其 速度 快 到 可 以 消耗 整个 可 用 带宽 。 主 机 B 读 出 这 些 时 间 值 并 把 它们 写成 它 自己 的 与 主机 A 时 
钟 同步 的 本 地 时 钟 的 时 间 对 。 假 设 链 路 有 如 下 情况 ， 定 性 地 给 出 主机 也 输出 的 例子 。 

(a) 高 带宽 ， 高 时 延 ， 低 抖动 。 

Cb) 低 带 宽 ， 高 时 延 ， 高 抖动 。 

Cc) 高 带宽 ， 低 时 延 ， 低 抖动 ， 偶 尔 丢失 数据 。 

例如 ， 一 条 无 抖动 链 路 ， 带 宽 高 到 足够 每 隔 一 个 时 钟 脉冲 输出 一 次 ， 一 个 时 钟 周 期 可 能 产生 像 
(0000, 0001), (0002, 0003), (0004, 0005) 这 样 的 结果 。 

获取 并 构建 如 书 中 所 示 的 simplex-talk 套 接 字 程 序 实 例 。 分 别 在 独立 的 窗口 中 启动 一 个 服务 器 和 一 个 
客户 端 。 当 第 一 个 客户 端 运行 时 ， 再 启动 连接 到 同一 个 服务 器 上 的 10 个 其 他 客户 端 : 这 些 其 他 客户 
端 很 有 可 能 在 后 台 被 启动 ， 它 们 的 输入 重 定 向 来 自 一 个 文件 。 这 10 个 客户 端 会 发 生 什么 情况 ? 它们 
的 connect() 操作 会 失败 、 超 时 还 是 成 功 ? 其 他 的 调用 是 否 会 被 阻塞 ?现在 让 第 一 个 客户 端 退出 ， 会 
出 现 什么 情形 ? 将 服务 器 的 MAX_PENDING 设置 为 1， 再 试 一 次 。 

修改 simplex-talk 套 接 字 程序 ， 使 其 客户 端 每 次 给 服务 器 发 送 一 行 ， 然 后 服务 器 把 这 一 行 发 送 回 客户 
端 。 客 户 端 (和 服务 器 ) 现在 必须 轮流 调用 reevO 和 send( ) 。 

修改 simplex-talk 套 接 字 程 序 ， 使 其 使 用 UDP 而 不 是 TCP 作为 传输 协议 。 你 必须 在 客户 端 和 服务 央 
上 同时 将 SOCK_STREAM 修改 为 SOCK_DGRAM。 然 后 ， 在 服务 器 端 删 除 对 listen() 和 accept) 
的 调用 ， 将 结尾 的 两 个 嵌 套 循环 用 一 个 单 循环 代替 ， 这 个 单 循 环 用 套 接 字 s 调用 recv()。 最 后 ， 观 察 
当 两 个 UDP 客户 端 同 时 连接 到 同一 个 UDP 服务 器 时 会 发 生 什么 情况 .并 和 TCP 的 情况 进行 比较 








. 考察 可 以 为 TCP 连接 设置 哪些 不 同 的 选项 和 参数 (在 Unix 下 执行 man tcp)。 试 验 用 不 同 的 参数 设 


置 ， 观 察 它 们 如 何 影响 TCP 的 性 能 。 

Unix 的 工具 ping 可 以 用 来 找 出 到 各 种 因特网 主机 的 RTT 值 。 阅读 ping 的 主页 ， 并 使 用 它 找 出 到 新 
泽 西 州 的 www. cs. princeton. edu 以 及 加 利 福 尼 亚 州 的 www. cicso. com 的 RTT。 在 一 天 的 不 同时 间 
里 测量 RTT 的 值 ， 并 比较 结果 。 对 于 这 些 差异 将 如 何 解 释 ? 

可 以 用 Unix 中 的 工具 traceroute 或 Windows 中 相应 的 tracert， 查 看 消息 在 路 由 选择 时 所 经 过 的 路 由 
器 序列 。 用 它 来 查看 从 你 的 站 点 到 某 些 其 他 站 点 的 路 径 。 其 中 的 跳 数 和 由 ping 得 知 的 RTT 时 间 有 何 
关系 ? 跳 数 和 地 理 距离 有 何 关 系 ? 

用 上 上 题 中 的 traceroute 画 出 你 所 在 组 织 的 一 些 路 由 器 图 示 (或 证 明 没有 使 用 路 由 絮 )。 
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过 度 地 考虑 未 来 是 错误 的 。 命 运 像 一 串 链条 .一 次 只 能 处 理 其 中 的 一 个 环节 。 
— RMR. AER 


问题 : 连接 到 网 络 


在 第 1 章 中 我 们 看 到 网 络 是 由 节点 间 相 互 连 接 的 链 路 组 成 的 ， 我 们 面临 的 一 个 基本 问 
题 就 是 如 何 把 两 个 节点 连接 在 一 起 。 我 们 也 介绍 了 “ 云 ” 的 概念 ， 它 是 一 个 网 络 ， 但 无 需 
考虑 其 内 部 的 复杂 性 。 我们 也 需要 考虑 一 台 主 机 连接 到 云 的 问题 。 对 于 每 个 因特网 服务 提 
供 商 (ISP) 来 说 ， 当 它 想 把 一 个 新 客户 连接 到 网 络 中 时 ， 需 要 考虑 类 似 的 问题 : 如 何 把 
多 个 节点 连接 到 ISP 的 云 中 ， 

无 论 是 想 要 构造 一 个 只 有 两 个 节点 和 一 条 链 路 的 简单 网 络 ， 还 是 把 第 十 亿 台 主机 连接 
到 现存 的 网 络 (如 因特网 ) 中 , 我 们 都 需要 考虑 一 些 事情 。 首 先 需 要 连接 物理 介质 。 介 质 
可 以 是 铜 线 、 光 纤 或 者 是 可 以 在 其 中 传输 电磁 信号 〈 如 无 线 电波 ) 的 无 线 介质 〈 例 如 空气 
或 自由 空间 )。 它 可 能 覆盖 一 个 小 的 区 域 〈 如 一 栋 办 公 大 楼 ) ， 或 一 个 大 的 区 域 (如 大 洲 )。 
然而 ， 用 一 种 合适 的 介质 连接 两 个 节点 仅仅 是 第 一 步 。 在 节点 能 成 功 地 交换 分 组 之 前 ， 必 
须 先 解决 下 面 五 个 问题 。 

第 一 个 问题 是 对 传送 到 介质 上 的 比特 编码 (encoding)， 使 其 能 被 接收 主机 理解 。 第 
二 个 问题 是 把 在 链 路 上 传输 的 比特 序列 描述 为 完整 的 消息 ， 以 便 传 送 到 端 节 点 ， 这 称 为 组 
mm (framing) 问题 ， 而 传 给 端 主机 的 消息 通 帝 称 为 帧 (frame)， 有 时 也 叫 分 组 (packet), 
第 三 个 问题 ， 因 为 在 传输 过 程 中 帧 有 时 会 出 错 ， 所 以 有 必要 检测 这 类 差错 并 且 采 取 适 当 的 
行动 ， 这 是 差错 检测 Cerror detection) 问题 。 尽 管 帧 一 次 又 一 次 地 出 错 ， 但 在 这 种 情况 
下 ， 还 是 要 建立 一 条 看 起 来 可 靠 的 链 路 ， 这 是 第 四 个 问题 。 最 后 一 个 问题 是 在 多 台 主 机 共 
享 一 条 链 路 (尤其 是 无 线 链 路 ) 的 情况 下 ， 必 须 协 调 对 该 条 链 路 的 访问 ， 这 是 介质 访问 控 
制 (media access control) 问题 。 

虽然 编码 、 组 帧 、 差 错 检 测 、 可 靠 传输 和 介质 访问 控制 这 五 个 问题 可 以 在 理论 上 讨 
论 ， 但 是 它们 是 在 不 同 网 络 技术 中 以 不 同方 式 解 决 的 很 实际 的 问题 。 本 章 在 以 下 三 个 特定 
的 网 络 技术 下 考虑 这 些 问题 : 点 到 点 链 路 、 载 波 监 听 多 路 访问 〈Carrier Sense Multiple 
Access, CSMA) 网 络 〈 以 太 网 是 其 最 著名 的 例子 ) 和 无 线 网 络 (802.11 是 应 用 最 广泛 的 
标准 )。 本 章 的 目的 是 纵览 实用 的 网 络 技术 并 探讨 这 五 个 基本 问题 ， 我 们 将 会 看 到 如 何 把 
各 种 不 同 的 物理 介质 连接 起 来 构造 鲁 棒 性 和 可 扩展 性 俱 佳 的 网 络 。 


2.1 连接 概览 


正如 在 第 1 童 中 所 看 到 的 ， 网 络 由 两 类 硬件 构件 组 成 : 节点 (node) 和 链 路 Clink) 。 
本 章 关 注 如 何 构造 有 用 的 连接 ， 尤 其 是 在 包含 着 数 百 万 连接 的 大 规模 可 靠 网 络 中 。 

大 规模 网 络 的 操作 者 处 理 的 是 通过 冰箱 大 小 的 路 由 器 所 连接 起 来 的 数 百 或 数 千 公 里 长 
的 链 路 ， 网 络 的 典型 用 户 接 入 链 路 的 方式 大 多 是 将 一 台 计 算 机 连接 到 全 球 因特网 。 这 种 连 
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接 可 能 是 在 咖啡 店 中 的 无 线 连接 (Wi-Fi)， 也 可 能 是 在 办 公 楼 或 大 学 中 的 以 太 网 连接 。 对 
于 正在 快速 增长 中 的 网 络 用 户 ， 可 能 是 由 电信 公司 或 ISP 提供 的 光纤 连接 ， 也 有 许多 用 户 
在 使 用 铜 缆 连 接 。 幸 和 运 的 是 ， 有 许多 不 同 的 连接 策略 对 于 协议 栈 高 层 来 说 是 可 靠 并 有 用 
的 。 本 章 将 探讨 这 些 策略 。 

图 2-1 显示 了 当前 因特网 中 典型 终端 用 户 采 用 的 各 种 连接 方式 。 左 边 是 各 种 各 样 的 终 
端 用 户 设备 ,包括 移动 电话 、PDA、 计 算 机 等 ， 它们 通过 各 种 方式 连接 到 因特网 服务 提供 
商 。 其 接 入 方式 可 能 是 上 面 提 到 的 任何 连接 方式 ， 也 可 能 是 其 他 连接 方式 。 在 该 图 中 它们 
采用 同样 的 连接 方式 ， 即 通过 一 条 直线 连接 到 路 由 器 。 同 时 ， 图 中 有 一 些 链 路 把 ISP 内 部 
的 路 由 器 相互 连接 在 一 起 。 图 中 还 有 一 条 链 路 把 ISP 连接 到 “因特网 其 余部 分 "， 它 包含 


许多 其 他 ISP 及 其 连接 着 的 主机 。 这 些 链 路 虽然 画 得 并 不 漂亮 ， 但 网 络 体系 结构 〈 正 如 
1. 3 节 中 所 讨论 ) 的 作用 之 一 是 提供 复杂 链 路 的 简单 抽象 。 基 本 思想 就 是 你 的 笔记 本 或 智 


能 手机 不 必 考 虑 它们 被 接 人 了 什么 类 型 的 链 路 ， 唯 一 要 考虑 的 就 是 它 接 人 了 因特网 。 类 似 
地 ， 路 由 器 不 必 考 虑 它 通过 什么 类 型 的 链 路 与 其 他 路 由 器 连接 起 来 ， 只 要 知道 它 在 链 路 上 
发 送 了 一 个 分 组 后 ,分 组 能 够 按 预 期 到 达 链 路 的 男 一 端 。 


网 络 服务 
主机 提供 商 (ISP ) 


因特网 





| 对 等 点 


接 入 技术 ( 如 光纤 、 电 缆 、Wi-Fi、 蜂 窒 网 络 …… ) 

图 2-1 因特网 终端 用 户 概览 
如 何 使 不 同 的 链 路 对 于 终端 用 户 和 路 由 器 来 说 是 一 样 的 呢 ? 关键 是 我 们 必须 处 理 存 在 
于 现实 世界 中 的 所 有 物理 约束 和 链 路 缺陷 。 本 章 中 我 们 会 对 这 些 问 题 进 行 概述 。 首 要 的 问 
题 是 链 路 是 能 够 传输 信号 (例如 无 线 电 波 或 其 他 类 型 的 电磁 波 ) 的 物理 介质 ， 但 我们 实际 
需要 发 送 的 是 比特 。 本 章 后 面 会 介绍 如 何 对 比特 进行 编码 以 便 在 物理 介质 中 传输 ， 接 下 来 
会 介绍 上 面 提 到 的 其 他 问题 。 本 章 最 后 会 介绍 如 何在 各 种 链 路 上 发 送 完整 的 分 组 ， 而 不 考 

虑 其 采用 的 物理 介质 。 


相关 主题 

链 路 容量 和 香农 定理 

在 信号 处 理 和 信息 论 的 相关 领域 中 ， 研 究 者 们 已 做 了 许多 工作 ， 其 中 包括 在 经 过 一 段 
距离 后 信号 如 何 衰减 ， 以 及 一 个 给 定 的 信号 能 有 效 地 运载 多 少数 据 等 。 这 一 领域 中 最 著名 
的 工作 是 一 个 称 为 香农 - 哈 特 雷 定理 (Shannon-Hartley theorem)s WARK. BBA. 
香农 定理 以 每 秒 比特 (bps) 的 形式 给 出 一 条 链 路 容量 的 上 限 ， 表 示 为 链 路 信 噪 比 的 函数 ， 


O 有 时 简称 香农 定理 ， 但 实际 上 香农 提出 了 相当 多 的 定理 。 
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用 分 贝 (dB) 度量 。 其 中 涉及 的 信道 带宽 用 赫兹 (Hz) 度量 。( 正 如 先前 提 到 的 ， 带 宽 是 
通信 的 负载 量 ， 这 里 指 的 是 通信 中 可 用 的 频率 范围 。) 

例如 ， 我 们 使 用 香农 定理 来 确定 调制 解 调 器 的 信息 传输 速率 ， 当 调制 解 调 器 以 这 个 速 
率 在 一 个 音频 电话 线 上 传输 二 进 制 数据 时 ， 不 会 出 现 过 高 的 差错 率 。 标 准 音频 电话 线 支 持 
的 典型 频率 范围 为 300~3 300Hz， 信 道 带宽 是 3kHz。 

香农 定理 通常 由 下 面 的 公式 给 出 : 

C= Blog: (1 二 S/N) 
其 中 C 是 可 达到 的 信道 容量 ， 单 位 为 bps，B 是 用 Hz 表示 的 信道 带宽 (3 300Hz—300H2= 
3 000Hz)，S 是 信号 的 平均 功率 ，N 是 噪声 的 平均 功率 。 信 噪 比 (S/N, R SNR) 通常 
用 dB 表示， 计算 公式 如 下 : 

SNR= 10 X logio (S/N) 
(iz — 7 A hy ER LH 30dB, 2K HA S/N=1 000。 因 此 我 们 有 

C=3 000 X log: (1001) 
近似 等 于 30kbps。 

在 20 世纪 90 年代， 调制解调器 是 接 入 因特网 的 主要 方式 ， 其 标准 容量 是 56kbps CK 
号 的 上 限 )。 然 而 在 实践 中 ， 调制解调器 能 够 达到 的 速率 要 低 一 些 ， 因 为 并 不 总 是 有 足够 
高 的 信 品 比 使 其 能 够 达到 56kbps。 

香农 定理 可 以 应 用 于 各 种 链 路 ， 包 括 无 线 链 路 、 同 轴 电 绕 和 光纤 等 。 显 然 构 建 高 容量 
的 链 路 只 有 两 种 方法 ， 提 高 带宽 或 提高 信 噪 比 ， 或 者 同时 提高 带宽 和 信 噪 比 。 有 人 和 希望 通 
过 设计 编码 方法 来 使 传输 速率 达到 信道 的 理论 上 限 值 ， 但 这 也 无 法 保证 高 容量 的 链 路 。 这 
种 想法 在 今天 的 无 线 链 路 中 特别 明显 ， 依 托 给 定 的 无 线 频 谱 (信道 带宽 ) 和 信号 功率 
(SNR) 以 求 获 得 更 高 的 信息 传输 速率 。 





链 路 分 类 
本 书 的 大 部 分 读者 已 经 遇 到 了 一 些 不 同类 型 的 链 路 ， 这 有 助 于 理解 现 有 的 不 同类 型 的 
链 路 及 其 属性 所 有 链 路 都 依赖 于 通过 介质 或 自由 空间 传播 的 电磁 波 。 链 路 分 类 的 方法 之 
一 就 是 依据 其 所 采用 的 介质 来 划分 ， 典 型 的 有 铜 线 ， 如 数字 用 户 线 DSL) 和 同 轴 电 绕 ， 
还 有 光纤 ， 如 商业 型 光纤 到 户 服务 和 因特网 骨干 网 中 的 长 距离 链 路 ， 以 及 用 户 无 线 网 络 介 
质 空气 或 自由 空间 。 
链 路 的 男 一 个 重要 属性 是 频率 (frequency)， 以 赫 效 (Hz) 作为 测量 单位 ， 反 映 了 电 
磁 波 的 摆动 情况 。 波 的 一 对 相 邻 最 高 点 或 最 低 点 之 间 的 距离 称 为 波长 (wavelength), 单 
位 为 米 (m)。 由 于 所 有 电磁 波 均 以 光速 传播 (具体 速度 依赖 于 介质 )， 所 以 该 速度 除 以 波 
的 频率 就 等 于 它 的 波长 。 我 们 已 经 看 到 音频 电话 线 的 例子 ， 它 在 300~3 300Hz 的 范围 内 
传送 连续 的 电磁 信和 号， 一 个 300Hz 的 波 通过 铜 线 传播 的 波长 为 
Speed Of Light In Copper+ Frequency = 2/3 X 3 X 108 +300=667 X 103 m 
通常 ， 电 磁 波 横 跨 一 个 很 宽 的 频率 范围 ， 从 无 线 电 波 到 红外 线 到 可 见 光 到 X HSE A E g 
线 。 图 2-2 描绘 了 电磁 波 的 频谱 ， 并 说 明了 何 种 介质 用 于 传送 哪 一 sog 
EHIE, pA -条 链 路 就 是 用 来 传送 电磁 波 信 号 的 介 这 种 链 路 为 传输 各 
种 信息 提供 了 基础 ， 包 括 传输 中 我 们 感 兴趣 的 数据 类 型 ， a 
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图 2-2 电磁 波 频谱 
二 进 制 数据 被 编码 Cencoded) 到 信号 中 。 把 二 进 制 数据 编码 成 电磁 波 信 号 是 一 个 复杂 的 


问题 。 为 了 使 问题 更 加 易于 处 理 ， 我 们 可 以 把 它 分 成 两 层 来 考虑 。 


lation) ， 即 通过 改变 信号 的 频率 、 振 幅 或 相位 来 实现 信息 的 传输 。 


改变 单一 波长 的 振幅 。 
件 时 调制 问题 是 次 要 的 ， 我 们 只 


“高 ” 信 号 和 “ 低 ” 信 号 ， 所 以 我 们 只 考虑 上 层 ， 


号 的 问题 。2. 2 节 将 讨论 这 样 的 编码 问题 


对 链 路 进行 分 类 的 男 一 一 种 方法 是 依据 其 使 用 方式 ， 


下 层 涉 及 调制 (modu- 
调制 的 一 个 简单 例子 


在 直观 上 这 相当 于 开 灯 和 关 灯 。 由 于 在 讨论 链 路 作为 计算 机 网 络 构 
假设 有 可 能 传输 一 对 可 区 别 的 信号 一 一 把 它们 想象 成 


即 只 关心 将 二 进 制 数据 编码 成 这 两 种 信 


不 同 的 经 


济 考虑 和 部 署 方式 都 会 影 


响 链 路 类 型 ， 大 部 分 消费 者 可 能 会 通过 无 线 网 络 〈 在 咖啡 店 、 机 场 、 大 学 等 区 域 ) 与 因 


特 网 进行 交互 ， 也 可 能 会 通过 因特网 服务 提供 商 提 供 的 所 谓 


图 2-1 中 所 描述 的 一 样 。 表 2-1 总 结 了 这 些 链 
路 类 型 。 选 取 这 些 类 型 作为 代表 是 因为 它们 对 
于 数 百 万 用 户 而 言 都 是 性 价 比 较 高 的 。 例 如 
DSL 依托 于 现 有 的 双 绞 线 ， 而 这 些 双 绞 线 在 普 
及 的 传统 电话 服务 中 已 经 搭建 完成 。 对 于 建造 
一 个 完整 的 网 络 来 说 ， 这 些 技术 大 多 无 法 胜 
任 ， 例 如 在 大 型 网 络 中 通过 长 距离 高 速 链 路 来 
连接 若干 个 城市 。 


“最 后 一 英里 ”的 链 路 ， 正 如 











表 2-1 家 庭 接 入 的 基本 服务 方式 
服 务 带宽 (典型 值 ) 
拨号 28~56kbps 
ISDN 64~128kbps 
DSL 128kbps~ 100Mbps 





CATV (电缆 电视 ) 


1~40Mbps 





FTTH (光纤 到 户 ) 





50Mbps~ 1Gbps 


过 去 20 4p, EKE R ge ph (E H Ag E h BL AE 8 Sb e KE FPL 


这 些 链 路 使 用 了 一 种 称 为 SONET (同步 光学 网 络 ) 的 技术 ， 


需求 ，2. 3. 3 节 将 会 更 详细 地 介绍 SONET, 


该 技术 可 以 满足 电信 传输 的 


最 后 ， 除 了 最 后 一 英里 和 骨干 网 链 路 外 ， 在 一 个 建筑 物 或 一 所 校园 内 通常 采用 的 接 入 


方式 是 局 域 网 (LAN). 
取代 了 先前 的 令 牌 环 技术 。 
驱 ，2. 7 节 将 会 进一步 介绍 无 线 技 术 。 

这 里 关于 链 路 类 型 的 概述 虽然 并 不 全 面 ， 


正如 2.6 节 中 所 介绍 的 ， 以 太 网 在 这 一 
以 太 网 经 久 不 误 ， 目 前 与 基于 802. 11 标准 的 无 线 技术 并 驾 齐 


领域 占有 统治 地 位 ， 已 经 


却 也 揭示 了 现 有 链 路 类 型 的 基本 方法 及 链 路 


类 型 的 多 样 性 。 在 下 节 中 ， 我 们 将 会 看 到 网 络 协议 利用 这 种 多 样 性 展现 高 层 的 一 致 性 ， 而 


无 需 考虑 低层 的 复杂 性 细 证 。 
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2.2 编码 (NRZ, NRZI, Sere. 4B/5B) 


将 节点 和 链 路 变 成 可 用 构件 的 第 一 步 ， 是 清楚 它们 如 何 连接 ， 以 使 比特 从 一 个 节点 传 
输 到 另 一 个 节点 。 正 如 在 前 一 节 中 提 到 的 ， 信 和 号 是 在 物理 链 路 上 传播 的 。 因 此 ， 我 们 的 任 
务 是 将 源 节点 准备 发 送 的 二 进 制 数据 编码 为 链 路 能 够 传送 的 信号 ， 然 后 在 接收 节点 将 信和 号 
解码 成 相应 的 二 进 制 数据 。 我 们 忽略 调制 的 细节 并 假设 处 理 两 种 离散 信号 ， 即 高 信号 电 平 
和 低 电 平 。 实 际 上 ， 这 些 信号 可 能 对 应 着 铜 线 链 路 上 的 两 个 不 同 电压 或 光纤 链 路 上 的 两 个 
不 同 能 量 级 。 

正如 之 前 已 提 到 的 ,本章 讨论 的 大 部 分 功能 是 由 网 络 适配器 (network adaptor) 完成 
的 ， 它 是 一 个 将 节点 连接 到 链 路 上 的 硬件 。 网 络 适 配器 包括 一 个 信 令 构件 ， 它 在 发 送 节点 
把 比特 编码 为 信号 ， 而 在 接收 节点 将 信号 解码 为 比特 。 因 此 ， 如 图 2-3 所 示 ， 信 和 号 在 两 个 
信 令 构件 之 间 的 链 路 上 传输 ， 而 比特 在 两 个 网 络 适 配器 之 间 流 动 。 


一 


ADHINE 


”信和 号 


Sc ama | 节点 





节点 | 适配器 po 
| 比特 
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图 2-3 信号 在 信 令 构件 之 间 传 输 ， 比 特 在 适配器 之 间 流 动 


回 到 将 比特 编码 为 信号 的 问题 。 显 然 ， 要 做 的 就 是 将 数值 1 映射 为 高 电 平 ,数值 0 映 
射 为 低 电 平 。 这 是 一 种 称 为 不 归 零 (Non-Return to Zero. NRZ) 的 编码 方案 所 采用 的 映 
射 。 例 如 ， 图 2-4 以 图 解 方式 描述 了 一 个 特定 的 比特 序列 (图 的 上 部 ) 及 其 对 应 的 NRZ 
编码 信号 (图 的 下 部 )。 

比特 OO 1011110100 00 10 
1 | i} | | 1 1 | | 1 1 1 1 | | | 1 
| | i} | | 1 $ | i} 


图 2-4 一 个 比特 流 的 NRZ 编码 


NRZ 的 问题 是 ， 几 个 连续 的 1 表示 在 一 段 时 间 内 信和 号 在 链 路 上 保持 为 高 电 平 ， 类 似 
地 ， 几 个 连续 0 表示 信号 在 一 段 时 间 内 保持 为 低 电 平 。 一 长 串 0 和 1 导致 两 个 基本 问题 。 
第 一 个 问题 是 ， 它 会 导致 基线 漂移 (baseline wander) 状态 。 尤 其 是 接收 方 保持 一 个 它 所 
看 到 的 信号 平均 值 ， 然 后 用 这 个 平均 值 区 分 高 、 低 电 平 。 当 收 到 的 信号 远 低 于 这 个 平均 值 
时 ， 接 收 方 就 断定 看 到 了 0， 同 样 ， 远 高 于 这 个 平均 值 的 信号 被 认为 是 1。 当 然 ， 问 题 是 
太 多 连续 的 1 或 0 会 使 这 个 平均 值 发 生 改 变 ， 使 得 检测 信号 中 很 难 出 现 明 显 的 变化 。 

第 二 个 问题 是 ， 由 高 到 低 和 由 低 到 高 的 频繁 转换 必须 使 用 时 钟 恢复 (clock recovery), 
直观 地 讲 ， 时 钟 恢 复 问 题 就 是 : 编码 和 解码 过 程 都 由 一 个 时 钟 来 驱动 ， 每 个 时 钟 周期 发 送 
方 发 送 1 比特 ， 接 收 方 恢复 1 比特 。 为 了 使 接收 方 能 恢复 发 送 方 发 送 的 比特 ， 发 送 方 和 接 
收 方 的 时 钟 必须 精确 同步 。 如 果 接 收 方 时 钟 比 发 送 方 时 钟 稍 快 或 稍 慢 ， 那么 ， 接 收 方 就 不 
能 正确 地 解码 信号 。 可 以 采用 在 另 一 条 线 上 发 送 时 钟 给 接收 方 的 方法 ， 但 这 种 方案 不 太 可 
行 ， 因 为 这 使 布线 费用 增加 一 倍 ， 所 以 接收 方 改 由 收 到 的 信号 得 到 时 钟 ， 这 就 是 时 钟 恢 复 





过 程 。 无 论 何 时 ， 只 要 信号 有 从 1 到 0 或 从 0 到 1 的 跳 变 ， 接 收 方 就 知道 这 是 在 时 钟 周 期 
的 边界 上 ， 它 能 够 自己 进行 重新 同步 。 然 而 ， 知 长 时 间 没 有 这 样 的 跳 变 就 会 导致 时 钟 潭 
移 。 所 以 ， 无 论 传 送 什 么 数据 ， 时 钟 恢复 都 依赖 于 信号 内 有 许多 跳 变 。 

有 一 种 方法 可 以 解决 这 个 问题 ， 称 为 不 归 零 反 转 (Non- Return to Zero Inverted. 
NRZI) ， 发 送 方 将 当前 信号 的 跳 变 编码 为 1， 将 当前 信号 的 保持 编码 为 0。 这样 就 解决 了 
连续 1 的 问题 ， 但 是 显然 未 解决 连续 0 的 问题 。NRZI 如 图 2-5 所 示 。 还 有 一 种 方法 称 为 
曼彻斯特 编码 (Manchester encoding)， 这 种 颇具 独创 性 的 方法 通过 传输 NRZ 编码 数据 与 
时 钟 的 异 或 值 使 时 钟 与 信号 结合 在 一 起 。( 把 本 地 时 钟 看 作 一 个 从 低 到 高 变化 的 内 部 信和 号， 
一 对 低 / 高 变化 的 电 平 看 作 一 个 时 钟 周期 .) 图 2-5 也 给 出 了 曼彻斯特 编码 。 注意， 曼 彻 斯 
特 编码 将 0 作为 由 低 到 高 的 跳 变 ，1 作为 由 高 到 低 的 跳 变 。 因为 0 和 1 都 导致 信号 的 跳 变 ， 
所 以 接收 方 能 有 效 地 恢复 时 钟 。( 还 有 一 种 曼彻斯特 编码 的 变种 ， 称 为 差分 曼彻斯特 (dif- 
ferential Manchester) 编码 。 其 方法 是 若 信 号 的 前 一 半 与 前 一 比特 信号 的 后 一 半 信 号 相等 
则 编码 为 1， 若 信号 的 前 一 半 与 前 一 比特 信号 的 后 一 半 信 号 相反 则 编码 为 0.) 
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图 2-5 不 同 的 编码 策略 


曼彻斯特 编码 方案 存在 的 问题 是 使 链 路 上 信和 号 跳 变 的 速率 加 倍 ， 这 意味 着 接收 方 有 一 
半 的 时 间 在 检测 信和 号 的 每 一 个 脉冲 。 信 和 号 变化 的 速率 称 为 链 路 的 波 特 率 (baud rate). 在 
曼彻斯特 编码 中 ， 比 特 率 是 波 特 率 的 一 半 ， 所 以 认为 编码 的 效率 仅 为 50 加 。 记 住 ， 如 果 接 
收 方 保持 比 图 2-5 中 的 曼彻斯特 编码 要 求 的 更 快 的 波 特 率 ， 那么 在 相同 的 时 间 段 中 ，NRZ 
和 NRZI 能 传输 2 倍 的 比特 数 。 

我 们 考虑 的 最 后 一 种 编码 方法 称 为 4B/5B， 它 力求 不 扩大 表 2-2 4B/5B 编码 









































高 信号 或 低 信号 的 持续 期 而 解决 曼彻斯特 编码 的 低 效 问题 。4B/。 TERRES an 
SB 的 思想 是 在 比特 流 中 插入 额外 的 比特 以 打破 一 连 嘻 的 0 或 1 一 下 一 
准确 地 讲 ， 就 是 用 5 个 比特 来 编码 4 个 比特 的 数据 ， 之 后 再 传 010 10100 
给 接收 方 ， 因 此 称 为 4B/5B。5 比特 代码 是 由 以 下 方式 选 定 的 ， 一 一 ata 
每 个 代码 最 多 有 1 个 前 导 0， 并 且 未 端 最 多 有 两 个 0。 因 此 ， 当 mo | am 
连续 传送 时 ， 在 传输 过 程 中 任何 一 对 5 比特 代码 连续 的 0 最 多 u 
有 3 个 。 然 后 ， 再 将 得 到 的 5 比特 代码 使 用 NRZI 编码 传输 ,这 一 in | Tao 
种 方式 说 明了 为 什么 仅 需 关心 多 个 连续 0 NEI. ANRE A foot 
解决 了 多 个 连续 1 的 问题 。 注 意 ，4B/5B 编码 的 效率 为 80%。 和 
表 2-2 给 出 了 16 个 可 能 的 4 比特 数据 符号 对 应 的 5 比特 op 
代码 。 注 意 ， 由 于 5 比特 足以 编码 32 个 不 同 的 代码 ， 因 此 我 一 in a 








们 仅 用 了 16 个 ， 剩 下 的 16 个 可 用 于 其 他 目的 。 其 中 ， 11111 = 11101 
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可 用 于 表示 线路 空闲 ，00000 表示 线路 不 通 ，00100 表示 停止 。 在 剩 下 的 13 个 码 中 ,7 个 
是 无 效 的 (因为 它们 违反 了 1 个 前 导 、0 或 两 个 末尾 0 的 规则 )， 另 外 6 个 代表 各 种 控制 符 
号 。 在 本 章 后 面 将 会 看 到 ， 某 些 组 帧 协议 会 使 用 这 些 控制 符号 。 


2.3 组 帧 


我 们 已 经 看 到 在 一 个 点 到 点 链 路 〈 从 一 个 适配器 到 另 一 个 适配器 ) 上 如 何 传输 比特 序 
列 ， 现 在 考虑 图 2-6 中 的 情形 。 回 顾 一 下 第 1 章 ， 我 们 关注 的 是 分 组 交换 网 ， 即 在 节点 间 
交换 的 是 数据 块 〈 在 这 一 层 称 为 帧 (frame)) 而 不 是 比特 流 。 网 络 适 配器 使 节点 间 能 够 交 
换 帧 。 当 节点 A 希望 向 节点 B 传送 一 帧 时 ， 它 告诉 自己 的 适配器 从 节点 的 内 存 中 传送 一 
帧 ， 这 导致 一 个 比特 序列 传 到 链 路 上 。 然 后 ， 节 点 B 的 适配器 收集 链 路 上 到 达 的 比特 序 
列 ， 并 在 BB 的 内 存 中 存放 相应 的 帧 。 准 确 识别 什么 样 的 比特 集合 构成 一 帧 ， 即 决定 帧 从 哪 
里 开始 到 哪里 结束 .是 适 配 絮 面临 的 主要 挑战 。 
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图 2-6 适配器 之 间 的 比特 流 ， 主 机 之 间 的 帧 


解决 组 帧 问题 有 几 种 方法 。 本 节 从 设计 的 角度 使 用 不 同 的 协议 来 说 明 各 种 方法 。 注 
意 ， 尽管 我 们 是 在 点 到 点 链 路 的 环境 中 讨论 组 帧 问题 ， 但 在 多 路 访问 网 〈 如 以 太 网 和 令 牌 
环 ) 中 组 帧 也 是 一 个 基本 问题 。 

2.3.1 面向 字 节 的 协议 (BISYNC, PPP, DDCMP) 

最 早 的 组 帧 方法 是 把 每 一 帧 看 成 一 个 字 节 (字符 ) 集 ， 而 不 是 一 个 比特 集 ， 这 种 方法 
源 于 终端 与 大 型 机 的 连接 。 面 向 字 节 (byte-oriented) 方法 的 实例 有 : 20 世纪 60 FRR 
IBM 开发 的 二 进 制 同步 通信 (Binary Synchronous Communication, BISYNC) 协议 ， 以 
及 用 于 数字 设备 公司 DECNET 网 络 上 的 数字 数据 通信 消息 协议 (Digital Data Communi- 
cation Message Protocol，DDCMP) 。 近 来 广泛 使 用 的 点 对 点 协议 CPPP) 则 是 这 种 方法 
的 另 一 个 实例 。 

1. 起 止 标记 法 

BISYNC 协议 用 起 止 标记 法 组 帧 ， 图 2-7 表示 这 个 协议 的 帧 格式 。 本 书 此 后 将 用 这 样 
的 图 来 表示 帧 或 分 组 格式 ， 所 以 此 处 稍 加 解释 。 我 们 将 一 个 分 组 表示 为 一 个 带 标 记 的 字段 
序列 ， 每 个 字段 上 方 的 数字 表示 字段 所 占 的 比特 长 度 。 注 意 ， 分 组 是 从 最 左 端的 字段 开始 
传输 的 。 





图 2-7 BISYNC 帧 格式 
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BISYNC 使 用 称 为 起 止 字 符 (sentinel character) 的 特定 字符 表示 帧 的 开始 与 结束 . 
一 帧 的 开始 由 发 送 一 个 特定 的 SYN (同步 ) 字符 表示 。 其 后 帧 的 数据 部 分 包含 在 两 个 特 
殊 的 起 止 字符 之 间 : STX (正文 开始 符 ) 和 ETX (正文 结束 符 )。SOH (首部 开始 符 ) 字 
段 与 STX 字段 的 目的 是 一 样 的 。 自 然 ， 起 止 标 记 法 存在 的 问题 是 ETX 字符 可 能 会 出 si 
帧 的 数据 部 分 。BISYNC 通过 对 ETX 字符 “ 转 义 ”的 方法 解决 这 个 问题 ， 无 论 ETX 出 现 
在 帧 体 中 什么 位 置 ， 都 在 其 前 加 上 一 个 DLE (数据 链 路 转 义 ) 字符 ， 帧 体 中 的 DLE 字符 
也 采用 同样 的 方法 (在 其 前 多 加 一 个 DLE) 处理。(C 程序 员 可 能 注意 到 ， 这 类 似 于 当 引 
号 出 现在 一 个 字符 串 中 时 用 反 和 斜 线 转 义 的 处 理 方 法 。) 因为 要 在 帧 的 数据 部 分 棉 和 和 额外 的 
字符 ， 所 以 这 种 方法 常 称 为 字符 填充 法 (character stuffing). 

帧 格式 还 包括 一 个 用 于 检验 传输 差错 的 字段 ， 标 记 为 CRC 〈 循 环 元 余 校 验 ) .2.4 节 
会 给 出 各 种 差错 检测 算法 。 最 后 ， 帧 中 包括 附加 的 Header (首部 ) 字段 ， 用 于 链 路 层 可 
靠 传输 算法 ，2. 5 节 会 给 出 这 些 算 法 的 例子 

最 近 PPP 通常 用 于 在 各 种 点 对 点 HERE 传输 IP 分 组 ,并且 同 BISYNC 一 样 使 用 起 止 
字符 填充 法 。 图 2-8 给 出 PPP 的 帧 格式 。 特 殊 的 正文 起 始 字符 STX 在 图 2-8 中 表示 为 
Flag (标志 ) 字段 ， 其 值 为 01111110。Address (地 址 ) 和 Control (控制 ) 字段 通常 取 默 
认 值 ， 所 以 不 用 理会 。Protocol (协议 ) 字段 用 于 多 路 分 解 : 它 标识 高 层 协议 ， 如 IP ak IPX 
(一 个 由 Novell 公司 开发 的 类 似 IP 的 协议 )。 帧 的 Payload (有 效 载荷 ) 长 度 是 可 以 协商 的 
但 它 的 默认 值 是 1 500 字 节 。Checksum ( 校 验 和 ) 字段 的 长 度 是 2 字 节 (默认 ) 或 4 字 节 
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图 2-8 PPP 帧 格式 


PPP 帧 格式 中 有 几 个 字段 长 度 是 可 以 协商 而 不 是 固定 的 ， 这 种 协商 由 链 路 控制 协议 
(Link Control Protocol. LCP) 管理 。PPP 和 LCP 协同 工作 : LCP 发 送 封 装 在 PPP 帧 中 
的 控制 消息 ， 该 消息 由 PPP 的 Protocol 字段 中 的 一 个 LCP 标识 符 表示 .然后 返回 并 根据 
包含 在 控制 消息 中 的 信息 来 改变 PPP 的 帧 格式 。 当 两 端的 对 等 实体 都 检测 到 载波 信号 时 
(例如 ， 当 光 接 收 器 检测 到 所 连接 的 光纤 上 有 发 来 的 信号 时 )， 在 它们 之 间 建 立 一 条 链 路 的 
过 程 也 会 用 到 LCP. 

2. 字 节 计数 法 

正如 每 一 位 计算 机 科学 专业 的 学 生 所 知道 的 ， 可 以 代替 起 止 标记 值 检测 文件 结束 的 另 
一 种 方法 是 在 文件 开始 处 包含 文件 中 的 项 目 个 数 。 组 帧 也 是 如 此 ， chain 的 字 节 数 可 
放 在 帧 首部 的 一 个 字段 中 。DECNET 网 络 的 DDCMP Hh ee 采用 这 种 方法 .如 图 2-9 
所 示 。 在 这 个 例子 中 ，Count GRO 字段 指明 在 帧 体 中 包含 多 少 字 市 . 
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图 2-9 DDCMP 帧 格式 


这 种 方法 的 危险 是 ， 传 输 差 错 可 能 破坏 计数 字段 ， 在 这 种 情况 下 ,将 不 能 正确 检测 到 
帧 的 结束 。( 如 果 ETX 字段 被 破坏 ， 类 似 的 问题 也 存在 于 起 止 标记 法 中 .) 假如 发 生 此 类 








差错 ， 接 收 方 就 会 累计 错误 的 Count 字段 所 指示 的 字 节 数 ， 然 后 使 用 差错 检测 字段 确定 帧 
出 错 了 .我 们 有 时 将 这 种 情况 称 为 组 帧 差错 (framing error)。 然 后 接收 方 将 等 待 ， 直 到 
看 到 下 一 个 SYN 字符 ， 便 会 开始 收集 组 成 下 一 帧 的 字 节 。 因 此 ,组 帧 差错 可 能 引起 多 个 
后 续 帧 的 错误 接收 。 


2.3.2 面向 比特 的 协议 (HDLC) 


与 面向 字 节 的 协议 不 同 , 面向 比特 的 协议 不 关心 字 节 的 边界 ， 它 只 把 帧 看 成 比特 的 
集合 。 这 些 比特 可 能 来 自 某 个 字符 集 ， 如 ASCII 码 ， 它 们 可 能 是 一 幅 图 像 中 的 像素 值 或 
一 个 可 执行 文件 的 指令 和 操作 数 。 由 IBM 开发 的 同步 数据 链 路 控制 (Synchronous Data 
Link Control, SDLC) 协议 就 是 一 个 面向 比特 的 协议 ， 后 来 由 OST 将 它 标准 化 为 高 级 数据 
链 路 控制 (High-Level Data Link Control, 16 8 
HDLC) 协议 。 在 下面 的 讨论 中 ， 开始 序列 首部 | 同体 CRC 结束 序列 
HDLC 作为 一 个 例子 ， 它 的 帧 格式 如 图 2 j ame 
A, 图 2-10 HDLC 帧 格式 

HDLC 用 特定 的 比特 序列 01111110 stellen 在 链 路 空闲 时 也 发 送 这 
以 保证 发 送 方 和 接收 方 的 时 钟 同 步 。 这样， 双方 的 协议 本 质 上 都 使 用 起 止 标记 法 。 ne 

个 序列 可 能 出 现在 帧 体 中 的 任何 位 置 〈 事 实 上 ， 比 特 序列 01111110 可 以 跨 字 节 边 界 )， 所 
TERRENT DLE Sei. 这 种 方法 称 为 比特 填充 法 (bit stuffing) 。 

在 HDLC 协议 中 ， 比 特 填充 过 程 如 下 。 在 发 送 方 ， mee nh ke 出 5 个 连 
续 的 1 后 (发送 方 试 图 发 送 特别 序列 01111110 除外 )， 发 送 方 在 发 送 下 一 比特 之 前 插入 一 
个 0。 在 接收 方 ， 如 果 5 个 连续 的 1 到 达 了 ， t a 它 看 到 的 下 一 比特 ( 即 5 个 1 后 
面 的 比特 ) 做 出 决定 。 如 果 下 一 比特 为 0， 则 一 定 是 填充 的 ， 接 收 方 就 把 它 去 掉 ; 如 果 下 
一 比特 是 1， 则 有 两 种 情况 ， 即 帧 结束 标记 或 是 比特 流 中 出 现 差错 。 通 过 查看 下 一 (next) 
比特 ， 接 收 方 可 以 区 别 这 两 种 情形 : 如 果 看 到 0( 即 最 后 8 比特 为 01111110)， 那么 它 一 
定 是 帧 结束 标记 ; 如 果 看 到 1 ( 即 最 后 的 8 比特 为 01111111)， 则 一 定 是 出 错 了 ， 需 要 丢 
弃 整 个 帧 。 在 后 一 种 情形 中 ， 接 收 方 必须 等 到 下 一 个 01111110 出 现 才 能 再 一 次 开始 接收 
数据 ， 结 果 ， 接收 方 有 可 能 连续 两 次 接收 帧 失败 。 显 然 ， 仍 存 在 组 帧 差错 未 被 检测 出 来 的 
情形 ， 例 如 ， 可 能 由 于 差错 而 产生 假 的 帧 结束 模式 ， 但 这 种 差错 相对 而 言 不 大 可 能 。 我 们 
将 在 2.4 节 讨 论 健壮 的 检 错 方式 。 

比特 填充 法 和 字符 填充 法 都 有 一 个 有 趣 的 特性 : 一 个 帧 的 长 度 由 帧 的 有 效 载 荷 中 传送 
的 数据 决定 。 事 实 上 ， 如 果 在 任何 帧 中 携带 的 数据 是 任意 的 ， 所 有 的 帧 就 不 可 能 同样 大 。 
(为 了 使 人 信服 ， 考 虑 如 果 一 个 帧 体 的 最 后 字 节 是 ETX 字符 将 会 出 现 什么 情况 .) 确保 所 
有 帧 为 同样 大 小 的 组 帧 形式 在 下 一 小 节 讨 论 。 








相关 主题 

层 中 包含 什么 ? 

a 它 提供 了 对 协议 (特别 是 协议 层 ) 
进行 讨论 的 一 些 术语 。 这 些 术语 引起 了 很 多 争议 ， 例如， “你 的 协议 把 功能 X AE Y E 


而 OSI 参考 模型 说 明 这 /1 nee 这 wie ”事实 上 ， 为 执行 给 定 的 功 
能 而 给 出 正确 的 层 是 非常 困难 的 ， 而 且 其 理由 通常 比 “OSI 模型 怎么 说 ”还 难以 说 清 。 这 





就 是 本 书 避 免 严 格 分 层 方 法 的 部 分 理由 。 本 书 的 做 法 是 展示 许多 需要 由 协议 执行 的 功能 ， 
并 考察 已 经 成 功 实现 它们 的 一 些 方法 。 

尽管 我 们 不 采用 分 层 方法 ， 但 有 时 我 们 需要 方便 的 方式 来 讨论 协议 类 ， 用 协议 在 其 上 进 
行 操作 的 层 的 名 称 是 最 好 的 选择 。 例 如 ， 本 章 主要 关心 链 路 层 协 议 。(2.2 节 描 述 的 比特 编码 
是 一 个 例外 ， 它 被 认为 是 物理 层 功 能 。) 链 路 层 协 议 可 通过 它们 是 否 运 行 在 单一 链 路 上 来 座 
别 〈 本 章 讨论 的 网 络 类 型 就 是 单一 链 路 )。 对 比 之 下 ， 网 络 层 协议 运行 在 交换 网 上 ， 其 中 包 
含 许多 由 交换 机 或 路 由 器 互联 起 来 的 链 路 。 第 3 章 和 第 4 章 将 讨论 网 络 层 协 议 的 相关 主题 。 

注意 ， 当 谈 及 协议 类 和 把 建 网 的 问题 划分 为 可 管理 的 子 任务 时 ， 协 议 层 是 有 用 的 ， 因 
为 它们 提供 了 有 助 于 讨论 的 方法 。 然 而 ， 这 并 不 意味 着 过 分 的 限制 : 事实 是 分 层 违例 不 会 
使 是 否 值得 分 层 的 争论 停止 。 换 名 话说 ， 分 层 可 以 做 一 个 好 仆人 人， 而 不 是 一 个 可 怜 的 主 
人 。 在 第 6 章 讨论 拥塞 控制 时 ， 又 会 出 现 某 一 功能 最 好 放 在 哪 一 层 的 有 起 争论 。 





2.3.3 基于 时 钟 的 组 帧 (SONET ) 


ZA WANES 3 种 方法 以 同步 光纤 网 络 (Synchronous Optical Network, SONET) 标准 
为 例 。 由 于 没有 广 为 接 受 的 通用 术语 ， 我 们 简单 地 将 这 种 方法 称 为 基于 时 钟 的 组 帧 
(clock-based framing), SONET 最 初 是 由 贝尔 通信 研究 室 提 出 的 ， 然 后 由 美国 国家 标准 协 
会 (ANSI) 开发 用 于 在 光纤 上 传输 数字 数据 ， 此 后 被 ITU-T 采纳 。 但 是 谁 进行 标准 化 、 
标准 化 什么 以 及 何 时 标准 化 并 不 是 我 们 关心 的 问题 。 关 于 SONET 应 该 记 住 的 是 ， 它 是 在 
光 网 络 上 远 距 离 传输 数据 的 主要 标准 。 

在 深入 研究 SONET 之 前 需要 了 解 的 一 件 重 要 的 事情 是 ，SONET 的 全 部 规范 比 本 书 
还 厚 。 因 此 ， 下 面 的 讨论 只 能 涉及 这 一 标准 的 关键 点 。SONET 同样 也 解决 组 帧 问题 和 编 
码 问 题 。 它 还 解决 了 一 个 对 电话 公司 来 说 非常 重要 的 问题 : 几 条 低速 链 路 多 路 复 用 到 一 条 
高 速 链 路 。 我 们 首先 讨论 组 帧 ， 然 后 讨论 其 他 问题 。 

正如 以 前 讨论 的 组 帧 方案 ， 一 个 SONET 帧 包含 一 些 特殊 的 信息 ， 告诉 接收 方 哪里 是 
帧 的 开始 、 哪 里 是 帧 的 结束 。 然 而 ， 这 是 仅 有 的 相似 之 处 。 特 别 地 ， 由 于 并 不 使 用 比特 项 
充 ， 所 以 帧 的 长 度 不 依赖 于 传送 的 数据 。SONET 帧 的 问题 是 接收 方 如 何 知 道 每 一 帧 从 哪 
里 开始 和 到 哪里 结束 。 我 们 针对 速率 为 51. 84Mbps 的 STS-1 低速 SONET 链 路 来 考虑 这 
个 问题 。 一 个 STS-1 帧 如 图 2-11 所 示 ， 它 有 9 行 ， 每 行 90 个 字 节 ， 并 且 每 行 的 前 3 个 字 
节 是 系统 管理 信息 ， 其 余 字 节 可 用 于 链 路 上 传送 的 数据 。 帧 的 前 两 个 字 节 包含 一 个 特定 的 
比特 模式 ， 使 得 接收 方 能 够 确定 帧 从 哪里 开始 。 然 而 ， 由 于 不 使 用 比特 填充 ， 所 以 这 个 模 
式 可 能 会 偶尔 出 现在 帧 的 有 效 载荷 部 分 。 为 了 避免 出 现 这 种 情况 ， 接 收 方 不 断 地 寻找 特定 
比特 模式 ， 和 希望 它 每 810 个 字 节 出 现 一 ”系统 管理 信息 -一 一 一 一 一 有 效 载荷 =] 
次 ， 因 为 每 帧 的 长 度 是 9X90== 810 字 
节 。 当 特定 的 模式 在 应 有 的 位 置 出 现 多 
次 时 ， 接 收 方 可 推断 它 处 于 同步 状态 ， 9 行 
然后 就 能 正确 地 解释 帧 。 | 

由 于 SONET 的 复杂 性 ,我们 没有 
描述 所 有 其 他 系统 管理 信息 字 节 的 详细 90 列 
用 法 。 它 的 复杂 性 可 部 分 归结 为 ，SO- 图 2-11 SONET STS-1 帧 
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NET 是 在 电信 公司 的 光 网 上 运行 的 ， 而 不 仅仅 是 在 一 条 单 链 路 上 运行 。( 回 忆 一 下 ,我 们 
; 盖 了 电信 公司 实现 网 络 的 事实 ， 而 仅 考 虑 租用 一 条 SONET 链 路 ， 并 使 用 这 条 链 路 建立 
自己 的 分 组 交换 网 .) 额外 的 复杂 性 还 来 自 于 SONET 可 提供 更 丰富 的 服务 ， 而 不 仅仅 是 
数据 传输 。 例 如 ， 为 用 于 维护 的 语音 信道 预 留 一 个 容量 为 64kbps 的 SONET 链 路 。 

SONET 帧 的 系统 管理 信息 字 节 可 用 NRZ 编码 ， 这 是 前 一 节 描 述 的 一 种 简单 编码 ， 其 
中 1 表示 高 0 表示 低 。 人 然而， 为 确保 有 足够 的 跳 变 使 接收 方 获得 发 送 方 的 时 钟 ， 有 效 载 葵 
字 节 需 混 杂 编 码 (scramble)， 通 过 计算 被 传输 数据 与 一 个 已 知 的 比特 模式 的 或 ( 异 或 ) 
来 完成 。 比 特 模式 的 长 度 是 127 比特 ， 其 中 有 许多 从 1 到 0 的 跳 变 ， 因 此 ， 与 被 传输 数据 
进行 异 或 运算 后 可 得 到 具有 足够 多 跳 变 的 信号 ， 使 接收 方 能 够 恢复 时 钟 。 i 

SONET 以 下 面 的 方式 支持 多 个 低速 链 路 的 多 路 复 用 。 一 个 给 定 的 SONET 链 路 以 一 
组 有 限 的 可 能 速率 运行 ， 从 51. 84Mbps (STS-1) 到 2 488.32Mbps (STS-48) 或 更 高 。 
注意 所 有 速率 都 是 STS-1 的 整数 倍 。 组 帧 的 意义 在 于 ， 单 个 SONET 帧 能 包含 多 个 较 低 速 
率 信道 的 子 帧 。 第 二 个 相关 的 特征 是 每 一 帧 长 125js。 这 就 是 说 ， 在 STS-1 速率 下 ,一 个 
SONET 帧 是 810 FK. ME STS-3 速率 下 ， 每 个 SONET 帧 是 2 430 字 节 长 。 注 意 这 
两 个 特征 间 的 关系 是 : 3X810=2 430， 即 三 个 STS-1 帧 正好 放 在 一 个 STS-3 帧 中 。 

直观 地 讲 ，STS-N 帧 可 认为 是 由 N 个 STS-1 帧 构成 的 ， 这 些 帧 中 的 字 节 是 交叉 的 ， 
即 传输 第 一 帧 的 一 个 字 节 ， 然 后 传输 第 二 帧 的 一 个 字 节 ， 等 等 。 交 叉 每 个 STS-N 帧 中 的 
字 节 的 原因 是 保证 每 个 STS-1 帧 的 字 节 传送 进度 均匀 ， 即 字 节 在 接收 方 以 51Mbps 的 平滑 
速率 出 现 ， 而 不 是 在 1251s 间隔 的 某 个 1/N 的 时 间 内 全 部 成 串 出 现 。 

尽管 STS-N 信号 可 看 成 是 多 路 复 用 的 NN 个 STS-1 帧 ， 但 这 些 STS-1 帧 的 有 效 载 荷 还 
可 以 串 接 在 一 起 形成 一 个 更 大 的 STS-N 的 有 效 载 荷 ， 这 样 的 链 路 表示 为 STS-Ne (c 表示 
串 接 的 〈concatenated) ) 。 系 统管 理 信息 中 的 一 个 字段 就 用 于 这 个 目的 。 图 2-12 描述 了 三 
个 STS-1 帧 串 接 成 一 个 STS-3c 帧 的 情形 。 将 SONET 链 路 设计 成 STS-3c 而 不 是 STS-3 的 
意义 在 于 ， 在 前 一 种 情形 中 ， 用 户 可 将 链 路 看 成 一 个 单一 的 155. 25Mbps 管道 ， 而 STS-3 
实际 应 看 作 共 享 一 条 光纤 的 三 条 51. 84Mbps 链 路 。 

最 后 ， 前 面 描述 的 SONET 过 于 简单 ， 因 为 它 假设 每 一 帧 的 有 效 载荷 完全 包括 在 帧 内 
(为 什么 有 例外 的 情况 ?)。 事 实 上 ， 应 该 简单 地 把 刚刚 描述 的 STS-1 帧 看 作 帧 的 容器 ， 而 
真正 的 有 效 载荷 可 能 跨越 〈float) 帧 边界 。 这 种 情形 如 图 2-13 所 示 。 在 此 可 以 看 到 ， 
STS-1 有 效 载荷 跨越 两 个 STS-1 帧 ， 而 且 有 效 载 荷 向 有 有 移 了 几 个 字 节 绕 了 回来 。 帧 的 系统 
管理 信息 中 的 一 个 字段 指向 有 效 载荷 的 起 点 。 这 样 做 的 价值 是 简化 电信 网 中 的 时 钟 同 步 工 
作 ， 而 时 钟 同步 是 电信 网 要 花 很 多 时 间 来 处 理 的 事情 。 
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图 2-12 三 个 STS-1 帧 串 接 成 一 个 STS-3c 帧 图 2-13 跨越 帧 边界 的 SONET tj 
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2.4 差错 检测 


如 第 1 章 中 的 讨论 ， 帧 中 有 时 会 发 生 比 特 错 。 例 如 ， 由 于 电 王 扰 或 热 噪 音 ， 就 会 发 后 
这 样 的 差错 。 尽 管 差错 很 少 ， 特 别 是 在 光 链 路 上 ， 但 还 是 需要 某 种 机 制 来 检测 这 些 差错 . 
以 便 采取 纠 错 措施 。 否 则 ,终端 用 户 会 奇怪 为 什么 刚刚 成 功 编译 的 C 程序 现在 突然 会 有 一 
个 语法 错 。 发 生 这 样 的 差错 是 因为 这 个 程序 是 通过 一 个 网 络 文件 系统 拷贝 过 来 的 。 

用 来 处 理 计算 机 系统 中 比特 错 的 技术 已 有 很 长 的 历史 ， 至 少 可 以 追溯 到 20 世纪 40 年 
代 。 早 在 使 用 打 孔 机 以 及 当 数 据 保 存在 磁盘 或 早期 的 磁 心 存储 器 时 就 已 经 开发 出 了 汉 明 
(Hamming) 码 和 里 德 - 所 风门 (Reed-Solomon) 人 码 。 本 节 介 绍 网 络 中 最 常用 的 一 些 差错 
检测 技术 。 

检 错 只 是 问题 的 一 部 分 ， 另 一 部 分 是 一 发 现 差 错 就 立即 纠 错 。 当 消息 的 接收 方 检测 到 
差错 时 ， 可 以 采取 两 种 基本 方法 。 一 种 是 通知 发 送 方 消息 受到 破坏 ， 使 发 送 方 重 发 消息 的 
副本 。 如 果 比 特 错 很 少 ， 那 么 重 传 的 副本 很 可 能 没有 差错 。 男 一 种 方法 是 采用 几 种 差错 检 
测算 法 ， 它 们 使 接收 方 即使 在 消息 出 错 后 仍 可 以 重新 构造 正确 的 消息 。 这 些 算法 依赖 于 下 
面 讨 论 的 纠 错 码 (error-correcting code), 

检测 传输 差错 的 一 项 最 常用 的 技术 叫 作 循 环 宛 余 校 验 (Cyclic Redundancy Check. 
CRC)。 它 几乎 用 在 前 几 节 讨论 的 所 有 链 路 层 协 议 中 ,例如 HDLC, DDCMP 以 及 本 章 后 
面 讲 到 的 CSMA 和 无 线 协 议 。2. 4. 3 节 概 述 基本 的 CRC 算法 。 在 讨论 该 算法 之 前 ,我 们 
考虑 两 种 也 被 广泛 使 用 的 较为 简单 的 差错 检测 方法 : 二 维 奇 偶 校 验 (two-dimensional par- 
ity) 与 校 验 和 (checksum) 。 前 者 在 BISYNC 协议 传输 ASCII 码 字 符 时 采用 (24 BISYNC 
用 于 传输 EBCDICS 时 用 CRC) ， 而 后 者 在 若干 因特网 协议 中 使 用 。 

任何 差错 检测 方案 的 基本 思想 都 是 在 帧 中 加 入 宛 余 信息 来 确定 是 否 存在 差错 。 极 端 情 
况 下 ， 可 以 想象 传输 数据 的 两 个 完整 副本 。 如 果 这 两 个 副本 在 接收 方 是 相同 的 ， 那 么 可 能 
它们 都 是 正确 的 ; 如 果 不 同 ， 那 么 其 中 之 一 或 者 两 者 郁 有 和 错误， 必须 将 它们 丢弃 。 这 是 相 
当 差 的 差错 检测 方案 ， 原 因 有 两 点 : 第 一 ， 它 为 n 比特 消息 发 送 n 比特 元 余 信息 ; 第 二 ， 
有 许多 差错 检测 不 到 ， 如 恰好 在 消息 的 第 一 和 第 二 个 副本 的 相同 比特 位 置 出 错时 ， 便 检测 
不 到 。 

幸运 的 是 ， 我 们 有 比 这 个 简单 方案 更 好 的 方法 。 一 般 说 来 ， 当 为 芭比 特 消 息 仅 发 送 A 
个 元 余 比 特 时 ， 我 们 能 够 提供 相当 强 的 差错 检测 能 力 ， 其 中 kn。 例如， 在 以 太 网 上 . 一 
个 12 000 比特 (1 500 FH) 的 数据 帧 仅 需 要 一 个 32 位 的 CRC A. 通常 表示 为 CRC-32。 
下 面 将 会 看 到 ，CRC 码 能 发 现 大 多 数 的 差错 。 

之 所 以 说 发 送 的 额外 比特 是 完 余 信息 ， 是 因为 它们 不 是 向 消息 中 加 入 新 的 信息 ， 而 是 
用 某 种 明确 定义 的 算法 直接 从 原始 消息 中 导出 信息 。 发 送 方 和 接收 方 都 确切 知道 这 个 算 
法 ， 发 送 方 将 该 算法 应 用 到 消息 上 以 产生 宛 余 比特 。 然 后 ， 它 将 该 消息 和 宛 余 比特 都 传输 
出 去 。 当 接收 方 对 收 到 的 消息 应 用 同一 算法 时 ，( 在 没有 差错 的 情况 下 ) 应 该 产生 与 发 送 
方 相同 的 结果 。 它 将 结果 与 发 送 方 发 给 它 的 结果 进行 比较 如果 它们 相等 ， 就 可 能 (以 很 
高 的 或 然 率 ) 做 出 结论 ， 消 息 在 传输 过 程 中 没有 出 错 ; 如 果 不 相 等 ， 就 能 够 确定 消息 或 元 余 
比特 受到 破坏 ， 对 此 必须 采取 适当 的 措施 ， 那 就 是 丢弃 消息 ， 或 在 可 能 的 情况 下 纠 错 。 
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注意 这 些 额 外 比特 的 术语 。 一 般 说 来 ,它们 指 的 是 差错 检测 码 (error detecting code), 
在 特定 的 情况 下 ， 当 产生 编码 的 算法 是 以 相 加 为 基础 时 ， 可 能 称 为 校 验 和 “(check sum)。 我 
们 将 会 看 到 ， 因 特 网 校 验 和 的 命名 是 很 恰当 的 : 它 是 使 用 求 和 算法 的 一 种 差错 检测 机 制 。 
不 幸 的 是 ， 校 验 和 这 个 词 常 被 不 准确 地 用 于 表示 任何 形式 的 差错 检测 码 ， 包括 CRC。 这 可 
能 引起 混乱 ， 因 此 ， 我 们 主张 将 校 验 和 这 个 词 仅 用 于 真正 使 用 求 和 运算 的 代码 ， 而 用 差错 
检测 码 这 个 词 表 示 本 节 描 述 的 一 般 类 型 的 代码 。 


2.4.1 二 维 奇 偶 校 验 
二 维 奇偶 校 验 就 是 这 个 名 字 所 指 的 含义 。 它 基于 “简单 的 ” (一 维 ) 奇偶 校 验 一 一 通 


常 把 额外 的 1 比特 附加 到 7 比特 编码 上 ， 来 平衡 字 节 中 1 的 个 数 。 例 如 ， 奇 校 验 根据 字 节 
中 1 的 个 数 置 位 第 8 比特 位 使 8 个 比特 中 1 的 个 数 为 奇数 ; 而 偶 校 验 则 置 位 第 8 比特 位 


使 8 个 比特 中 1 的 个 数 为 偶数 。 二 维 奇偶 校 验 对 帧 中 每 一 字 节 的 每 ae 
一 比特 位 置 进行 类 似 的 计算 。 结 果 除 了 每 一 字 节 增加 1 个 奇偶 校 验 [aaoioor [1] 
位 外 ， 整 个 帧 产生 了 一 个 额外 的 奇偶 校 验 字 节 。 图 2- 14 说 明 二 维 
偶 校 验 对 一 个 含有 6 字 节 数据 的 帧 的 操作 过 程 。 需 要 注意 的 是 ， 奇 
偶 校 验 字 节 中 的 第 3 个 比特 是 1， 因 为 帧 中 6 个 字 节 的 第 3 位 中 含 数据 
有 奇数 个 1。 可 以 证 明 ， 二 维 奇偶 校 验 可 检测 所 有 1、2、3 比特 错 
及 大 部 分 4 比特 错 。 在 这 种 情况 下 ,我 们 给 42 比特 的 消息 加 入 了 


14 比特 的 元 余 信息 ， 从 而 对 于 一 般 差错 具有 比 上 面 描述 的 “重复 
码 ” 更 强 的 保护 能 


2.4.2 因特网 校 验 和 算法 


差错 检测 的 第 二 种 方法 以 因特网 校 验 和 为 例 。 虽 然 此 方法 不 在 链 路 层 使 用 ， 但 它 仍 提 
供 了 与 CRC 和 奇偶 校 验 同样 的 功能 ， 因 此 在 这 里 进行 讨论 。 在 4.1 节 、5.1 节 和 5.2 节 将 
看 到 它 的 实例 ， 

因特网 校 验 和 的 思想 非常 简单 一 一 将 传输 的 所 有 字 加 起 来 ， 然 后 传输 这 个 相 加 的 结 
Ro 此 结果 称 为 校 验 和 。 接 收 方 对 收 到 的 数据 执行 同样 的 计算 ， 然 后 把 得 到 的 结果 与 收 到 
的 校 验 和 进行 比较 。 如 果 传 输 的 任何 数据 〈 包 括 校 验 和 本 身 ) 出 错 ， 那 么 结果 将 不 相同 ， 
接收 方 就 知道 发 生 了 错误 。 

可 以 想象 校 验 和 基本 思想 的 许多 不 同 变种 。 因 特 网 协议 所 使 用 的 具体 方案 如 下 。 把 计 
算 校 验 和 的 数据 看 作 一 个 16 位 整数 序列 ， 采 用 16 位 反 人 码 算法 (下面 解释 ) 将 它们 加 在 一 
起 ， 然 后 对 结果 取 反 码 ， 得 到 的 16 位 数 即 为 校 验 和 。 

在 反 人 码 算法 中 ， 负 整数 一 x 用 xz 的 反 码 表示 ， 也 就 是 说 ， 将 zx 的 每 一 位 取 反 。 当 在 反 
码 算 法 中 进行 加 法 运算 时 ， 需 要 将 来 自 于 最 高 有 效 位 的 一 个 进位 加 到 结果 中 。 例 如 ， 考 虑 
4 比特 整数 的 反 码 算法 中 一 5 与 一 3 相 加 。 十 5 是 0101， 所 以 一 5 是 1010; 十 3 是 0011， 所 
以 一 3 是 1100。 如 果 我 们 将 1010 和 1100 相 加 而 不 考虑 进位 ， 则 得 到 0110。 在 反 码 算法 
中 ， 将 最 高 位 的 进位 再 加 到 结果 上 ， 得 到 0111， 正 如 我 们 预期 的 ， 它 是 一 8 的 反 码 表示 
(对 1000 各 位 取 反 而 获得 )。 

下 面 的 例 程 给 出 因特网 校 验 和 算法 的 一 个 直接 实现 。 参 数 count 给 出 以 16 位 为 单位 
的 buf 的 长 度 。 例 程 假设 buf 的 末尾 已 经 用 0 填充 成 16 位 。 


校 验 
[uou [o] 


图 2-14 二 维 奇偶 校 验 
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u short 
cksum(u_short *buf, int count) 


{ 


register u_long sum = 0; 
while (count ) 
{ 

sum += *buft++; 

if (sum & OxFFFFOOOO) 


{ 
/* carry occurred, 
so wrap around */ 
sum &= OXxFFFF; 
SumM++; 
} 
} 


return ~(sum & OxFFFF); 


这 段 代 码 确保 计算 使 用 反 码 算法 而 不 是 大 部 分 机 器 上 使 用 的 补 码 算法 。 注 意 while 循 
环 之 内 的 诗 语句 ， 如 果 在 sum 的 16 位 最 高 位 有 一 个 进位 ,那么 就 像 在 前 面 的 例子 中 一 样 
给 sum 加 1. 

这 个 算法 比重 复 编 码 要 好 ， 因 为 它 使 用 很 少 的 元 余 比 特 ， 即 对 任意 长 度 的 消息 仅 用 16 
位 ， 但 是 它 的 差错 检测 能 力 却 不 太 好 。 例 如 ， 有 一 对 单 比 特 错 ， 一 个 比特 错 使 一 个 字 增 加 
1， 而 另 一 个 比特 错 使 另 一 个 字 减 少 1， 若 两 种 差错 数量 相同 便 无 法 检测 。 虽 然 在 检 错 能 力 
上 相对 较 弱 (例如 与 CRC 相 比 )， 但 我 们 仍然 使 用 这 种 算法 ， 原 因 很 简单 : 这 个 算法 易于 用 
软件 实现 。ARPANET 网 的 经 验 表明 ， 这 种 形式 的 校 验 和 就 足够 了 。 EE a BC Se A E i Sh 
协议 的 最 后 一 道 防线 ， 大 部 分 差错 将 由 链 路 层 上 更 强 的 差错 检测 算法 (如 CRC) 检查 出 来 。 


相关 主题 

简单 概率 计算 

当 处 理 网 络 差错 和 其 他 (我 们 希望 ) 不 大 可 能 发 生 的 事件 时 ， 通常 使 用 简单 概率 估 
计 。 这 里 有 一 个 有 用 的 近似 值 ， 如 果 两 个 独立 事件 具有 小 概率 p 和 gq， 那 么 两 个 事件 之 一 
发 生 的 概率 是 p 十 g， 准 确 答 案 是 1 一 (1 一 p) (1 一 gq)==p 十 g 一 pq。 对 于 p=q=0.01, f 
计 和 值 是 0.02， 而 准确 值 是 0. 0199。 

考虑 这 个 结果 的 一 个 简单 应 用 ,假设 一 条 链 路 上 的 每 比特 差错 率 是 1/10" 。 假 设 需要 
估计 在 一 个 10 000 比特 分 组 中 至 少 1 比特 出 现 差错 的 概率 。 利 用 上 述 方 法 对 所 有 比特 反复 
近似 ， 我 们 感 兴趣 的 是 第 1 比特 错 的 概率 、 第 2 比特 错 的 概率 或 第 3 比特 错 的 概率 ， 依 次 
类 推 。 若 比特 错 完 全 是 独立 的 (其 实 不 是 )， 我 们 可 以 估计 ， 一 个 10 000 (10t) 比特 的 分 
组 中 至 少 有 一 个 差错 的 概率 是 104X10-7 王 10-3。 由 1 一 已 (无 错 ) 计算 出 的 准确 答案 是 
1 一 (1—10~7)!° % =0, 000 999 50, 

对 于 复杂 一 些 的 应 用 ， 我 们 计算 一 个 分 组 中 出 现 两 个 差错 的 概率 ， 即 逃脱 1 TAR 
位 校 验 和 差错 的 概率 。 考 虑 在 一 个 分 组 中 的 两 个 特定 的 比特 ， 分 别 为 比特 i 和 比特 i， 惟 
是 这 两 个 比特 错 的 概率 是 10-7X10-7。 在 这 个 分 组 中 ， 可 能 的 比特 对 的 总 数 是 


101 
( 2 )=10! X (10! —1)/2~5X10 





所 以 ， 再 次 利用 多 偶然 事件 (其 中 包括 任意 可 能 出 错 的 比特 对 ) 概率 的 反复 相 加 近似 求 得 
至 少 两 个 比特 错 的 概率 是 5X107X10-14 =5X 1077, 





2.4.3 循环 元 余 校 验 


至 此 ， 我们 应 该 清楚 设计 差错 检测 算法 的 主要 目标 是 用 最 少 的 元 余 比 特 检测 最 多 的 错 
误 。 循 环 元 余 校 验 使 用 一 些 功能 很 强 的 数学 算法 来 达到 这 个 目标 。 例 如 ,一 个 32 比特 的 
CRC 码 对 于 上 千 字 节 长 的 消息 中 一 般 的 比特 错 具 有 很 强 的 检测 能 力 。 循 环 元 余 校 验 的 理 
论 基础 源 于 一 个 称 为 有 限 域 (inite field) 的 数学 分 支 。 尽 管 听 起 来 深奥 ， 但 它 的 基本 思 
想 很 容易 理解 。 

首先 ， 考 虑 一 个 由 次 多 项 式 ( 即 最 高 窜 次 项 是 x" 的 多 项 式 ) 表示 的 2 十 1 比特 消 
E. 用 多 项 式 表示 消息 时 ， 消 息 的 每 一 比特 值 为 多 项 式 中 每 一 项 的 系数 . 并 从 最 高 有 效 位 
代表 最 高 索 次 项 开始 。 例 如 ， 一 个 8 比特 消息 10011010 对 应 多 项 式 

M(x) =1 X r +0XK 27° +0K eh HIX! +1 2 +0 x? 
1X! +0Ke® =e? pr! tH r Ha 
这 样 ， 我 们 可 以 认为 发 送 方 和 接收 方 在 互相 交换 多 项 式 。 

为 了 计算 CRC， 发 送 方 和 接收 方 必须 商定 一 个 除数 (divisor) 多 项 式 C(x), Cr) 
是 一 个 & 次 过 的 多 项 式 。 例 如 ,假设 C(x)==x; 十 zx? 十 1， 在 这 种 情况 下 , k= 二 3。 在 多 数 实 
际 情况 中 ,“C(x) 从 何 而 来 ”这 个 问题 的 答案 是 “到 书 中 去 找 "。 事 实 上 ,正如 下 面 要 讨 
WAJ. Cr) 的 选择 对 于 能 被 可 靠 检 测 的 差错 类 型 有 很 大 影响 。 有 少数 除数 多 项 式 对 于 各 
种 情况 都 是 很 好 的 选择 ， 并 且 准 确 的 选择 通常 是 协议 设计 的 一 部 分 。 例 如 ， 以 太 网 标准 使 
用 一 个 众所周知 的 32 UR HEY TSK 

当 发 送 方 想 要 传输 一 个 2 十 1 比特 长 的 消息 M(x) 时 ， 实 际 发 送 的 是 该 m+ 1 比特 的 消 
息 加 上 比特。 我 们 将 这 个 包括 元 余 比 特 的 完整 消息 称 为 PCz)。 我 们 要 做 的 就 是 试图 使 
表示 P) 的 多 项 式 恰 能 被 C(x) 整除 ,下 面 解释 如 何 去 做 。 如 果 在 一 条 链 路 上 传输 
PCz)， 并 且 在 传输 过 程 中 没有 发 生 差错 那么 接收 方 应 该 能 用 C(x) 整除 P(x)， 余数 为 
0。 男 一 方面 ， 如 果 在 传输 过 程 中 P(z) 中 出 现 了 某 个 差错 ， 那 么 收 到 的 多 项 式 总 体 上 可 
能 无 法 被 C(z) 整除， 因此 接收 方 得 到 一 个 非 零 余数 ,说 明 发 生 了 差错 。 

了 解 一 些 多 项 式 运算 的 知识 将 有 助 于 理解 下 面 的 内 容 ， 它 与 普通 的 整数 运算 略 有 不 
同 。 这 里 ， 我 们 处 理 一 类 特殊 的 多 项 式 运算 ， 其 中 系数 仅 为 1 或 0， 并 且 用 模 2 算术 执行 
对 系数 的 运算 。 称 为 “ 模 2 多 项 式 算术 ”。 由 于 这 是 一 本 关于 网 络 的 书 而 不 是 数学 课本 ， 
所 以 让 我 们 将 重点 集中 在 这 类 运算 的 主要 特征 上 (需要 接受 的 定理 )。 

。 对 于 任意 多 项 式 ， 如 果 B(x) WHR Cla) 高 ， 则 B(x) 都 能 被 CCz) KR. 

。 MEB) WEKE Cla) 相同 ， 则 任何 多 项 式 BCz) 都 能 被 除数 多 项 式 C(x) 除 1 次。 

。B(z) RIC) 所 得 余数 是 由 B(x) WE Ca) 得 到 的 。 为 了 得 到 B(x) WE C 

Cr) 的 结果 ,我 们 仅仅 在 每 一 对 匹配 的 系数 上 执行 或 ( 异 或 ) 操作 。 

例如 ， 多 项 式 3 +1 能 被 2? +a? +1 除 ( 因 为 它们 的 惫 次 都 是 3)， 余 数 是 0 X xs 十 
Xa? + 0X! FOX a =o? (由 每 一 项 系数 的 异 或 得 到 )。 以 消息 的 形式 ,我们 可 以 说 
1001 能 被 1101 除 ， 余 数 为 0100。 可 以 看 出 ， 余 数 恰 好 是 两 个 消息 的 比特 的 按 位 异 或 。 

现 在 我 们 知道 了 多 项 式 除法 的 基本 规则 ， 我 们 能 够 做 长 除法 ， 这 对 于 处 理 较 长 的 消息 





是 必要 的 。 下 面 看 一 个 例子 。 

回忆 一 下 ,我 们 希望 创建 一 个 从 原始 消息 Mo) 得 到 的 用 于 传输 的 多 项 式 ， 它 比 
M(x) 长 上 个 比特 ， 并 且 能 被 CCz) 整除 。 可 以 按 下 面 的 步 又 执行 : 

1) 用 衬 乘 MGz)， 就 是 在 消息 的 末尾 加 上 & 个 0， 这 称 为 零 扩展 的 消息 T). 

2) 用 CCz) 除 TGz)， 并 求 出 余数 。 

3) AT) 减 去 余数 。 

显然 ， 这 时 所 剩 的 是 能 被 CCz) 整除 的 一 个 消息 。 注 意 ， 作 为 结果 的 消息 由 M(xz) 后 
接 从 第 2 步 得 到 的 余数 组 成 ， 因 为 在 减 去 余数 (不 会 长 于 比特 ) 时 ， 仅 仅 是 将 它 与 第 1 
步 中 加 入 的 & 个 0 进行 异 或 。 这 部 分 内 容 用 一 个 例子 说 明 将 会 更 加 清楚 . 

考虑 消息 a? Hatta? +a! 10011010, FMM HERE HR, AA RA SK AY 
UKE 3. MEE 10011010000, H C(x) 除 这 个 多 项 式 ， 这 时 C(x) 对 应 于 1101. A 
2-15 显示 了 多 项 式 的 长 除 运 算 。 给 定 上 面 讨论 的 多 项 式 算术 规则 ， 长 除 运算 很 像 整 数 除 
法 。 因 而 ， 在 例子 的 第 1 步 ， 我 们 看 到 除数 1101 除 消息 的 前 4 个 比特 (1001)， 因 为 它们 
SRN, BBA 100 (1101 a 1001)。 下 一 步 11111001 
是 从 消息 多 项 式 中 拿 下 一 位 数字 ， 直 到 得 到 与 C(z) 生成 器 一 = 1101710011010000 -一 消息 











等 寡 的 另 一 个 多 项 式 ， 在 本 例 中 是 1001。 再 次 计算 余 al 
数 100) ， 继 续 下 去 直到 计算 完成 。 注 意 ， 我 们 对 出 sob ||| 
现在 算式 上 方 的 长 除法 结果 并 不 感 兴趣 ,重要 的 是 计 uo 
算 后 得 到 的 余数 。 1101 
从 图 2-15 的 底部 可 以 看 到 ， 本 例 计算 的 余数 是 HOT} 
101. ALERT HI. 10011010000 减 去 101 一 定 可 以 被 
Clr) 整除 ， 并 且 这 个 差 就 是 我 们 所 传送 的 数据 。 多 101 -一 余数 


项 式 算术 中 的 减法 运算 就 是 逻辑 异 或 运算 ， 因 此 实际 aois 使用 多 项 式 长 除法 计算 CRC 
发 送 的 是 10011010101。 如 上 面 指出 的 那样 ， 此 时 传 

送 的 正 是 原始 消息 再 附带 上 余数 (由 长 除法 计算 得 出 )。 接 收 方 用 C(x) 除 接收 到 的 多 项 
式 ， 若 结果 为 0， 则 无 错 ; 若 结果 非 0， 可 能 有 必要 丢弃 出 错 的 消息 。 使 用 某 些 编码 有 可 
能 纠正 小 的 差错 (例如 仅 有 1 比特 的 差错 )。 能 够 纠正 差错 的 编码 称 为 纠 错 码 (Error-Cor- 
recting Code, ECC), 

现在 考虑 多 项 式 C(x) 从 哪里 来 的 问题 。 直 观 地 讲 ， 选 择 的 多 项 式 不 大 可 能 除 尽 有 错 的 
消息 。 如 果 被 传输 的 消息 是 PCz) ， 则 可 以 将 引入 的 差错 看 作 是 加 入 另 一 个 多 项 式 E(x)， 所 
以 接收 方 看 到 的 是 P(x) 十 E(x)。 检 测 不 到 差错 的 唯一 情形 是 收 到 的 消息 能 被 CCz) 整 
除 ， 由 于 知道 Pla) 能 被 CCz) 整除 ， 所 以 只 有 当 E(x) 也 能 被 C(x) 整除 时 才 会 发 生 。 
选择 C(x) 的 技巧 是 使 常见 类 型 的 差错 多 半 不 能 被 其 整除 。 

一 种 常见 的 差错 类 型 是 单 比特 错 ， 第 i 比特 错时 可 表示 为 E(x) 二 x*?。 如 果 我 们 选 
Cia) 时 它 的 第 一 项 及 最 后 一 项 不 为 0， 那 么 就 有 一 个 有 两 项 的 多 项 式 ， 它 不 可 能 整除 单 
项 的 E(x)。 因 此 ， 这 样 的 C(x) 能 够 检测 所 有 单 比特 错 。 一 般 说 来 ， 可 以 证 明 有 具有 下 述 
性 质 的 CCz) 能 检测 出 以 下 几 类 差错 : 

© 只 要 x*w 和 zx° 项 的 系数 不 为 0， 可 检测 所 有 单 比特 错 。 

。 RECH) 含有 一 个 至 少 三 项 的 因子 ， 可 检测 所 有 双 比 特 错 。 

。 只 要 C(x) 包含 因子 x 十 1， 可 检测 任意 奇数 个 错 。 
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。 任 何 组 长 度 小 于 和 比特 的 “成 组 ”差错 〈 即 连续 的 错误 比特 序列 ， 大 部 分 大 于 A 比 

特 的 成 组 差错 也 能 检测 到 ) 。 
链 路 层 协 议 中 广泛 使 用 6 种 版 本 的 CCz) (如 表 2-3 所 示 )。 人 例如， 以太 网 使 用 CRC- 
32， 而 HDLC 使 用 CRC-CCITT， 第 3 瘟 描 述 的 ATM 使 用 CRC-8、CRC-10 和 CRC-32。 


表 2-3 常见 的 CRC 多项式 




















CRC C(x) 
CRC-8 Betta? Fil 
CRC-10 gh eg? gat 4g 
CRC-12 Sls E laa va Sle RU p=) ve ca 
CRC-16 2 
CRC-CCITT a fp glib t] 
CRC-32 人 











最 后 ， 我 们 注意 到 ，CRC 算法 看 起 来 复杂 ， 但 在 硬件 上 使 用 一 个 k 比特 移 位 寄存 器 和 
若干 异 或 门 是 比较 容易 实现 的 。 移 位 寄存 器 中 的 位 数 ya 
等 于 生成 多 项 式 的 寡 次 (hk). K 2-16 显示 了 用 于 前 面 
例子 的 生成 器 多 项 式 2? +22 +1 的 硬件 。 消息 从 左边 
移入 ， 以 最 高 有 效 位 开始 ， 并 以 附 在 消息 后 的 & 个 0 的 
比特 串 结 束 ， 正如 长 除法 中 的 例子 一 样 。 当 所 有 的 比 
特 都 被 移 人 并 进行 了 相应 的 异 或 时 ， 寄 存 器 包含 余数 ， 图 2- 16 使 用 移 位 寄存 器 计算 CRC 
即 CRC (右边 是 最 高 有 效 位 )。 异 或 门 的 位 置 按 如 下 方式 确定 ， 如果 移 位 寄存 器 中 的 各 位 
从 左 到 右 标 记 为 0~k 一 1， 那 么 ， 如 果 生 成 多 项 式 中 有 x" 项 ， 就 在 位 之 前 放置 一 个 异 或 
门 。 因 而 ， 对 于 生成 多 项 式 十 x? 十 xz"， 在 位 置 0 和 2 之 前 有 异 或 门 。 


相关 主题 

检 错 还 是 纠 错 ? 

我 们 提 到 过 有 可 能 使 用 既 能 检 错 又 能 纠 错 的 编码 。 由 于 理解 这 种 编码 的 细节 需要 的 数 
学 知识 比 理解 CRC 需要 的 数学 知识 更 复杂 ， 所 以 这 里 不 加 详 述 。 然 而 ， 纠 错 相 对 于 检 错 
的 优点 却 值 得 我 们 考虑 。 

乍 看 起 来 ， 纠 错 总 是 更 好 ， 因 为 检 错 时 ， 我 们 被 迫 丢 弃 消 息 并 请 求 传 输 另 一 份 副本 。 
这 会 用 尺 带 宽 并 可 能 在 等 待 重 传 时 产生 时 延 。 然 而 ， 这 对 于 纠 错 却 更 严重 : 它 通常 需要 更 
多 宛 余 比 特 来 发 送 与 检 错 码 同样 强 〈 即 能 够 处 理 同 一 差错 范围 ) 的 纠 错 码 。 因 而 ， 虽 然 检 
错 在 差错 发 生 时 需要 发 送 较 多 比特 ， 但 纠 错 却 始终 需要 发 送 更 多 的 比特 。 因 此 ， 当 处 于 下 
列 两 种 情况 之 一 时 ， 纠 错 才 是 最 有 用 的 : 差错 很 有 可 能 发 生 ， 例 如 在 无 线 环 境 中 就 是 这 
Hs 重 传 的 代价 大 高 ， 例 如 在 卫星 链 路 上 重 传 一 个 分 组 时 的 时 延 。 

网 络 中 使 用 的 纠 错 码 有 时 称 为 前 向 纠 错 (Forward Error Correction, FEC)， 因 为 纠 
错 是 通过 发 送 额 外 的 信息 “预先 ”进行 的 ， 而 不 是 等 待 发 生 差错 后 再 通过 重 传 来 处 理 。 














2.5 可 靠 传输 
正如 前 一 节 所 述 ， 当 帧 在 传输 中 可 能 出 错时 ， 可 以 用 像 CRC 这 样 的 差错 码 来 检测 这 
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类 差错 。 虽 然 有 些 差错 码 功 能 很 强 ， 还 可 以 纠 错 ， 但 实际 上 却 由 于 开销 太 大 以 至 于 无 法 处 
理 网 络 链 路 上 发 生 的 比特 错 和 成 组 差错 。 即 使 在 用 纠 错 码 时 “(例如 在 无 线 链 路 上 )。 某 些 
差错 也 可 能 过 于 严重 而 无 法 纠正 。 因 此 ， 菜 些 差 错 帧 必须 丢弃 。 一 个 想 要 可 靠 传输 帧 的 链 
路 层 协 议 必须 能 以 某 种 方式 恢复 这 些 丢 弃 (丢失 ) 的 帧 。 

值得 注意 的 是 可 靠 性 可 以 是 链 路 层 提 供 的 功能 ， 但 是 当前 许多 链 路 层 技 术 忽略 了 了 该 功 
能 。 幸 运 的 是 ， 在 高 层 协议 中 经 常 提供 可 靠 传 输 ， 包 括 传输 层 〈 在 5.2 节 中 介绍 ) 和 应 用 
层 ( 在 第 9 章 中 介绍 )。 到 底 应 该 在 哪 一 层 提供 可 靠 传输 依赖 于 很 多 因素 。 本 节 介 绍 可 靠 
传输 的 基本 思想 ,该 思想 是 跨 层 的 ， 应 该 意识 到 该 思想 不 仅 只 适用 于 链 路 层 ( 详 见 上 面 的 
相关 主题 “ 层 中 包含 什么 ?”) 。 

通常 使 用 两 种 基本 机 制 一 一 确认 (acknowledgement) 和 超时 (timeout) 的 组 合 来 完 
成 上 述 工 作 。 确 认 (简称 ACK) 是 协议 发 给 它 的 对 等 实体 的 一 个 小 的 控制 帧 ， 告知 它 已 
收 到 刚才 的 帧 。 所 谓 控制 帧 就 是 一 个 无 任何 数据 的 首部 ， 但 是 协议 也 可 以 将 ACK 48 a 
(piggyback) 在 一 个 恰好 要 发 向 对 方 的 数据 帧 上 。 原 始 帧 的 发 送 方 收 到 确认 ， 表 明 帧 发 送 
成 功 。 如 果 发 送 方 在 一 段 相当 长 的 时 间 后 未 收 到 确认 ， BAC EH (retransmit) 原始 帧 . 
等 待 一 段 相 当 长 的 时 间 的 动作 称 为 超时 。 

使 用 确认 和 超时 实现 可 靠 传输 的 策略 有 时 称 为 自动 请 求 重 发 (Automatic Repeat Re- 
quest，ARQ)。 本 节 用 通用 的 语言 描述 三 种 不 同 的 ARQ 算法 ， 就 是 说 ,我们 不 给 出 一 个 
特定 协议 首部 字段 的 详细 信息 。 


2.5.1 停止 -等 待 

最 简单 的 ARQ 方案 是 停止 -等 待 (stop-and-wait) 算法 ,停止 -等 待 的 思想 很 简单 : 
发 送 方 传输 一 帧 之 后 ， 在 传输 下 一 帧 之 前 等 竺 确认。 如果 在 一 段 时 间 之 后 确认 没有 到 达 ， 
则 发 送 方 超时 ， 并 重 传 原始 帧 。 

图 2-17 说 明 此 算法 的 四 种 不 同情 形 ， 图 中 使 用 时 间 线 ， 这 是 描述 协议 行为 的 一 种 常 
用 方法 。 左 侧 表示 发 送 方 ， 右 侧 表示 接收 方 ， 时 间 从 上 向 下 流动 。 图 2-17a 表示 在 计时 器 
超时 之 前 发 送 方 收 到 ACK 的 情况 ， 图 2-17b 和 图 2-17: 分 别 表 示 原 始 帧 和 ACK 丢失 的 情 
i, Fl 2-17d 表示 超时 过 快 发 生 的 情况 。 回 忆 一 下 , “丢失 ”的 意思 是 指 帧 在 传输 中 出 错 
时 ， 接 收 方 用 差错 码 检测 到 这 类 差错 ， 接 着 将 帧 丢弃 。 

发 送 方 接收 方 


时 间 
超时 
超时 


超时 


a) 超时 前 收 到 ACK b) 原始 帧 丢失 
图 2-17 停止 -等 待 算法 的 四 种 不 同情 形 的 时 间 线 
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发 送 方 接收 方 发 送 方 接收 方 
p tis he hý 
og ras 
a Wed X Baird 
上 一 tify 








超时 
E 
' 
超时 
I 
' 
$ 


c) ACKER d) 过 早 超时 
KI 2-17 (#8) 

在 停止 -等 待 算法 中 有 一 个 重要 的 细节 。 假 设 发 送 方 发 送 一 个 帧 ， 并 且 接 收 方 确认 它 ， 

但 这 个 确认 丢失 或 迟到 了 ， 如 图 2-17< 和 图 2-17d 所 示 。 在 这 两 种 情况 下 ， 发 送 方 超时 并 
重 传 原始 帧 ， 但 接收 方 认 为 那 是 下 一 帧 ， 因 为 它 正 确 地 接收 并 确认 了 第 一 帧 。 这 就 引起 重 
复 传送 帧 的 问题 。 为 解决 这 个 问题 ， 停 止 - 等 待 协议 的 首部 通常 包含 1 比特 的 序号 ， 即 序 
号 可 取 0 和 1， 并 且 每 一 帧 交替 使 用 序号 ， 如 图 2-18 所 示 。 因 此 ， 当 发 送 方 重 传 巾 0 时 ， 
接收 方 可 确定 它 是 帧 0 的 第 二 个 副本 而 不 是 帧 1 的 第 一 个 副 


和 : 发 送 方 接收 方 
本 ， 因 此 可 以 忽略 它 〈 在 第 一 个 ACK 丢失 的 情况 下 ， 接 收 方 网 
仍 确认 它 ) 。 

停止 - 等 待 算法 的 主要 缺点 是 ， 它 允许 发 送 方 每 次 在 链 路 一 
上 只 有 一 个 未 确定 的 帧 ， 这 可 能 远 远 低 于 链 路 的 容量 。 例 如 ， 号 | 
考虑 一 条 往返 时 间 为 45ms 的 1. 5Mbps 链 路 。 这 条 链 路 的 延迟 = o> 
与 带宽 的 乘积 为 67. 5Kb (“4 8KB)。 由 于 发 送 方 每 个 RTT 仅 aa 
能 发 送 一 帧 ， 并 假设 一 帧 的 大 小 为 IKB， 这 就 隐 含 最 大 发 送 速 
率 为 O wW 


i 


BitsPerFrame + TimePerFrame= 1024 X 8—0. 045= 182kbps 5 
或 者 大 约 是 链 路 容量 的 1/8。 为 充分 利用 链 路 我们 希望 发 送 图 2.18 apa 比特 序号 的 
方 在 等 待 一 个 确认 之 前 最 多 能 够 发 送 8 帧 。 停止 - 等 待 时 间 线 


相关 主题 

时 间 线 和 分 组 交换 

图 2-17 和 图 2-18 是 在 教学 、 解 释 和 设计 协议 中 经 常 使 用 的 一 种 工具 的 两 个 实例 ， 时 
间 线 或 分 组 交换 图 。 本 书 中 有 很 多 这 样 的 图 一 一 参见 更 为 复杂 的 实例 图 9-9。 由 于 这 些 图 
可 以 随 着 时 间 发 展 可 视 地 捕获 分 布 式 系统 的 行为 ， 有 些 行为 可 能 是 很 难 分 析 的 ， 因 而 非常 
有 用 。 在 设计 协议 时 ， 必 须 为 一 些 意外 做 准备 ， 比 如 系统 崩溃 、 消 息 丢 失 或 者 是 一 些 本 期 
望 很 快 发 生 的 事件 结果 占用 了 很 长 时 间 。 这 种 图 表 通 常 有 助 于 理解 在 此 情形 下 可 能 出 现 什 
么 故障 ， 进 而 帮助 协议 设计 者 为 应 对 每 一 种 不 测 做 准备 。 

延 识 带宽 积 的 重要 性 在 于 ， 它 表示 可 传输 的 数据 总 量 。 我 们 希望 不 等 待 第 一 个 确认 而 
能 够 发 送 这 么 多 的 数据 。 这 里 使 用 的 原理 通常 称 为 保持 管道 满载 (keeping the pipe full), 
下 面 两 节 中 的 算法 正 是 这 一 原理 的 体现 。 
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2.5.2 滑动 窗口 


青 次 考虑 链 路 的 延迟 带宽 积 为 SKB 和 帧 的 大 小 为 1KB 的 情况 。 我 们 想 让 发 送 方 在 第 
一 帧 的 ACK 到 达 的 同一 时 刻 准备 发 送 第 九 帧 。 允 许 这 样 做 的 算法 称 为 滑动 窗口 (sliding 


window)， 其 时 间 线 如 图 2-19 所 示 。 发 送 方 接收 方 
1. 滑动 窗口 算法 se 


滑动 窗口 算法 的 工作 过 程 如 下 。 首 先 ， 发 送 方 对 每 | Sees 
一 帧 赋予 一 个 序号 (sequence number). it 4E SeqNum. | 
BLE. 忽略 SeqNum 是 由 有 限 大 小 的 首部 字段 实现 的 事 = 
实 ， 而 假设 它 能 无 限 增 大 。 发 送 方 维护 三 个 变量 : 发 送 | 

窗口 大 小 (send window size), if f— SWS， 给 出 发 送 方 V TERS 
MERRER AO BEA HY LE LAR AR Hae a 3 0 
确认 帧 (last acknowledgement received) 的 序号 ; LFS 图 2-19 滑动 窗口 算法 的 时 间 线 
表示 最 近 发 送 的 帧 (last frame sent) 的 序号 。 发 送 方 还 遵循 如 下 的 不 等 式 : 

LFS— LART SWS 


这 种 情况 如 图 2-20 所 示 。 











LAR LFS 
网 2-20 发 送 方 的 滑动 窗口 


当 确认 到 达 时 ， 发 送 方向 右 移动 LAR， 从 而 允许 发 送 方 发 送 另 一 帧 。 同 时 ， 发 送 方 
为 所 发 的 每 个 帧 设置 一 个 定时 器 ， 如 果 定 时 器 在 接收 到 ACK 之 前 超时 ， 则 重 传 此 帧 。 注 
意 ， 发 送 方 必须 最 多 能 缓存 SWS 个 帧 ， 因 为 在 它们 得 到 确认 之 前 必须 准备 重 传 。 

接收 方 维 护 下 面 三 个 变量 : 接收 窗口 大 小 (receive window size) ， 记 为 RWS， 给 出 接收 
方 所 能 接收 的 无 序 帧 数目 的 上 界 ;， LAF 表示 最 大 的 可 接收 帧 (largest acceptable frame) 的 序 
号 ; LFR 表示 最 后 收 到 的 帧 (last frame received) 的 序号 。 接 收 方 也 遵循 如 下 不 等 式 : 

LAF—LFR<RWS 
这 种 情况 如 图 2-21 所 示 。 
<RWS 
下 | 
“¢ Titi Pitt | ie 


LFR LAF 
图 2-21 接收 方 的 滑动 窗口 











当 一 个 具有 序号 SeqNum 的 帧 到 达 时 ， 接 收 方 采取 如 下 行动 : 如 果 SeqNum<LFR 或 
SeqNum> 之 LAF， 那 么 帧 不 在 接收 方 窗 口内 ， 于 是 丢弃 ， 如 果 LFR<SeqNum<LAF, Jf 
么 帧 在 接收 方 窗口 内 ， 于 是 接收 。 现 在 接收 方 需要 决定 是 否 发 送 ACK, $ SeqNumTo- 
ACK 表示 未 被 确认 帧 的 最 大 序号 ， 这 样 序号 小 于 等 于 SeqNumToACK 的 帧 都 已 收 到 。 即 
使 已 经 收 到 更 高 序号 的 分 组 ， 接 收 方 仍 确认 SeqNumToACK 的 接收 。 这 种 确认 是 累积 的 。 
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然后 ， 设 LFR=SeqNumToACK, ji # LAF=LFR+RWS, 

例如 ， 假 设 LFR=5( 即 上 次 接收 方 发 送 的 ACK 是 为 了 确认 序号 5 的 )， 并 且 RWS= 
4。 这 意味 着 LAF 二 9。 如 果 帧 7 和 帧 8 到达， 则 把 它们 存 人 缓冲 区 ， 因 为 它们 在 接收 方 窗 
口内 。 然 而 并 不 需要 发 送 ACK， 因 为 帧 6 还 没有 到 达 。 帧 和 帧 8 被 称 为 是 错 序 到 达 的 。 
(从 技术 上 讲 ， 接 收 方 可 以 在 帧 7 和 帧 8 到 达 时 重 发 帧 5 的 ACK.) 如 果 帧 6 当时 到 达 了 
(或 许 它 因 第 一 次 丢失 后 必须 重 传 而 晚 到 ,或许 它 只 是 被 延迟 了 )， 接 收 方 确认 帧 8，LFR 
变 为 8，LAF 置 为 12。 如 果 事实 上 帧 6 丢失 了 ， 则 出 现 发 送 方 超时 ， 引 发 重 传 帧 6。 

我 们 看 到 ， 当 发 生 超时 时 ,传输 数据 量 减少 ， 因 为 发 送 方 在 帧 6 确认 之 前 不 能 向 前 移 
动 窗口 。 这 意味 着 当 分 组 丢失 时 ， 此 方案 将 不 再 保证 管道 满载 。 注 意 到 分 组 已 经 丢失 所 经 
历 的 时 间 越 长 ， 这 个 问题 越 严 重 。 

注意 ， 在 这 个 例子 中 ,接收 方 可 以 在 帧 7 一 到 达 就 为 帧 6 发 送 一 个 否认 应 答 (Negative 
Acknowledgment，NAK)。 然 而 ， 由 于 发 送 方 的 超时 机 制 足以 发 现 这 种 情况 ， 所 以 发 送 NAK 
反而 为 接收 方 增加 了 复杂 性 ， 央 此 不 必 这 样 做 。 同 时 ， 正 如 之 前 已 提 到 的 ， 当 帧 A 8 到 
达 时 ， 为 帧 5 发 送 一 个 额外 的 ACK 是 合理 的 。 在 某 些 情况 下 ， 发送 方 可 以 使 用 重复 的 ACK 
作为 帧 丢失 的 线索 。 这 两 种 方法 都 考虑 到 尽早 检测 分 组 的 丢失 ， 有 助 于 改进 性 能 。 

关于 这 个 方案 的 男 一 个 变种 是 使 用 选择 确认 (selective acknowledgments) 。 就 是 说 ， 
接收 方 能 够 准确 地 确认 那些 已 收 到 的 帧 ， 而 不 只 是 确认 按 顺 序 收 到 最 高 序号 的 帧 。 因 此 ， 
在 上 例 中 ， 接 收 方 能 够 确认 帧 7、 帧 8 的 接收 。 如 果 给 发 送 方 更 多 的 信息 ， 就 能 使 其 较 容 
易 地 保持 管道 满载 ， 但 增加 了 实现 的 复杂 性 。 

发 送 窗口 大 小 是 根据 一 段 给 定时 间 内 链 路 上 有 多 少 竺 传输 的 帧 来 选择 的 ， 对 于 给 定 的 
IERA E. SWS 是 容易 计算 的 。 另 一 方面 ， 接 收 方 可 以 将 RWS 设置 为 任何 想 要 的 值 。 
通常 的 两 种 设置 是 : RWS=1， 表 示 接 收 方 不 缓存 任何 错 序 到 达 的 帧 ;: RWS=SWS， 表 示 
接收 方 能 够 缓存 发 送 方 传输 的 任何 帧 。 由 于 错 序 到 达 帧 的 数目 不 可 能 超过 SWS， 所 以 设 
fH RWS > SWS 没有 意义 。 

2. 有 限 序 号 和 滑动 窗口 

现在 讨论 引入 算法 中 做 过 的 一 个 简化 ， 即 假设 序号 是 可 以 无 限 增 大 的 。 当 然 ， 实 际 上 
是 在 大 小 有 限 的 首部 字段 中 说 明 帧 的 序号 。 例 如 ， 一 个 3 比特 字段 意味 着 有 8 个 可 用 序号 
(0 一 7)。 因 此 序号 必须 可 重用 ,或 者 说 序号 能 回 绕 。 这 就 带 来 了 一 个 问题 ， 要 能 够 区 别 同 
一 序号 体现 的 不 同 帧 ， 这 意味 着 可 用 序号 的 数目 必须 大 于 所 允许 的 待 确 认 帧 的 数目 。 例 
如 ， 停 止 -等 待 算法 允许 一 次 有 一 个 待 确认 帧 ， 并 有 两 个 不 同 的 序号 。 

假设 序号 空间 中 的 序号 数 比 待 确认 的 帧 数 大 1， 即 SWS< MaxSeqNum—1, Herp 
MaxSeqNum 是 可 用 序号 数 。 这 就 够 了 吗 ? 答案 取决 于 RWS, WR RWS=1, IKA Max- 
SeqNum2SWS+1 就 足够 了 了 。 如 果 RWS=SWS， 那 么 有 一 个 只 比 发 送 窗 口 尺寸 大 1 的 
MaxSeqNum 是 不 人 够 的 。 为 清楚 这 一 点 ， 考 虑 有 8 个 序号 0~7 的 情况 ， 并且 SWS= 
RWS=7。 假 设 发 送 方 传输 帧 0 一 6， 并 且 接 收 方 成 功 接收 ， 但 ACK 丢失 。 接 收 方 现在 希 
望 接收 帧 7 和 帧 0 一 5， 但 发 送 方 超时 并 发 送 帧 0 一 6。 不 幸 的 是 ， 接 收 方 期 待 的 是 第 二 次 
的 帧 0 一 5， 得 到 的 却 是 第 一 次 的 帧 0 一 5。 这 正 是 我 们 想 避 免 的 情况 。 

事实 是 ， 当 RWS=SWS 时 ， 发 送 和 窗口 的 大 小 不 能 大 于 可 用 序号 数 的 一 半 ， 或 更 准确 地 说 ; 

SWS<(MaxSeqNum-+ 1)/2 
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直观 上 ， 这 说 明 滑动 窗口 协议 是 在 序号 空间 的 两 半 之 间 交 奉 ， 就 像 停 止 - 等 待 协议 的 序号 
是 在 0 和 1 之 间 交 替 一 样 。 它 们 之 间 唯 一 的 区 别 是 ， 滑 动 窗 口 协议 在 序号 空间 的 两 半 之 间 
ee 
Ey aT RWS=SWS 的 。 我 们 把 确定 适用 于 RWS All SWS 的 任意 

pe pa 还 要 注意 ， 窗口 的 大 小 和 序号 空间 之 间 的 关系 依赖 于 一 个 很 
明显 以 至 于 容易 被 忽略 的 假设 ， 即 帧 在 传输 中 不 重新 排序 。 因 为 在 直接 的 点 到 点 链 路 上 ， 
一 个 帧 不 可 能 赶 上 另 一 个 帧 。 然 而 ， 我 们 将 在 第 5 章 看 到 用 在 一 个 不 同 环境 中 的 滑动 窗口 
算法 ， 并 且 需 要 设计 另 一 条 规则 。 

3. 滑动 窗口 的 实现 

前 面 的 例 程 说 明 如 何 实现 滑动 窗口 算法 的 发 送 和 接收 。 例 程 取 自 一 个 正在 使 用 的 协 
议 ， 即 滑动 窗口 协议 (Sliding Window Protocol，SWP)。 只 要 不 涉及 协议 图 中 的 邻近 协 
i, 我 们 就 用 高 层 协议 (High-Level Protocol, HLP) 表示 SWP 上 层 的 协议 ， 用 链 路 层 
协议 (Link-Level Protocol, LLP) 表示 SWP 下 层 的 协议 。 

我 们 从 定义 一 对 数据 结构 开始 。 首 先 ， 帧 首部 非常 简单 : 它 包含 一 个 序号 (SeqNum) 

一 个 确认 号 (AckNum); 还 包含 一 个 标志 (Flags) 字段 ， 表 明 帧 是 一 个 ACK 帧 还 是 

携带 数据 的 帧 。 


typedef u_char SwpSeqno; 


typedef struct { 


SwpSeqno SeqNum; /* sequence number of this frame x*/ 
SwpSeqno AckNum; /* ack of received frame */ 
u_char Flags; /* up to 8 bits worth of flags */ 

) SwpHdr; 


其 次 ， 滑 动 窗 口算 法 的 状态 有 如 下 结构 。 对 于 协议 的 发 送 方 ， 这 个 状态 包括 本 节 前 面 
所 述 的 变量 LAR 和 LFS, er (sendQ)。 发 送 方 
状态 还 包含 一 个 计数 信号 量 (counting semaphore) ， 称 为 sendWindowNotFull， 下 面 将 介 
绍 如 何 使 用 它 。 但 一 般 来 说 ， 信 号 量 是 一 个 支持 semWait 和 semSignal 操作 的 同步 原 语 。 
每 次 调用 SemSignal 操作 ， 信 号 量 加 1; 每 次 调用 SemWait 操作 ， 信 号 量 减 1。 如 果 信 和 号 
量 减 小 ， 导 致 它 的 值 小 于 0， 那 么 调用 进程 阻塞 ( 挂 起 )。 只 要 执行 了 足够 的 semSignal 操 
作 而 使 信号 量 的 值 增 大 到 大 于 0， 就 允许 恢复 在 调用 sem Wait 的 过 程 中 阻塞 的 进程 。 

对 于 协议 的 接收 方 ， 状 态 包含 变量 NFE。 这 是 下 一 个 希望 接收 的 帧 (next frame ex- 
pected) ， 正 如 本 节 前 面 所 述 ， 其 序号 比 最 后 接收 的 帧 (LFR) 的 序号 大 1。 还 有 一 个 存放 
已 收 到 的 错 序 帧 的 队列 〈recvQ) 。 最 后 ， 虽 然 未 显示 ， 但 发 送 方 和 接收 方 的 滑动 窗口 的 大 
小 分 别 由 常量 SWS 和 RWS 表示 。 


typedef struct { 
/* sender side state: */ 


SwpSeqno LAR; /* seqno of last ACK 
received */ 
SwpSeqno LF Ss /* last frame sent */ 


Semaphore sendWindowNotFull; 
SwpHdr hdr; /* pre-initialized header */ 
struct sendQ_slot 1 
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Event timeout; /* event associated with send 
-timeout */ 

Msg msg; 

sendû[ SWS): 


/< receiver side state: */ 
SwpSeqno NFE; /* seqno of next frame 
expected */ 


struct recvQ_slot | 


int received; /+* is msg valid? */ 
Msg msg: 
recvû[RWS]; 

|} SwpState; 


SWP 的 发 送 端 是 由 sendSWP 过 程 实现 的 ， 这 个 例 程 比较 简单 。 首 先 ，sem Wait 使 这 
个 进程 在 一 个 信号 量 上 阻塞 ， 直到 它 可 以 发 送 男 一 帧 。 一 旦 允许 开始 发 送 ，sendSWP 设 
置 帧 首部 中 的 序号 ， 将 此 帧 的 副本 存储 在 发 送 队列 (sendQ) 中 ,调度 一 个 超时 事件 以 便 
处 理 帧 未 被 确认 的 情况 ， 并 将 帧 发 送 给 称 作 LINK 的 下 层 协 议 。 

值得 注意 的 一 个 细节 是 恰巧 在 调用 msgAddHdr 之 前 调用 store_swp_hdr。 该 例 程 将 
存 有 SWP 首部 的 C 语言 结构 (state hdr) 转化 为 能 够 安全 放 在 消息 前 面 的 字 节 品 
(hbuf) 。 这 个 例 程 〈 未 显示 ) 必须 将 首部 中 的 每 个 整数 字段 转化 为 网 络 字 节 顺 序 ， 并 且 去 
掉 编 译 程序 加 入 C 语言 结构 中 的 任意 填充 。7. 1 节 将 详细 讨论 字 节 顺序 的 问题 ,但 现在 ， 
假设 这 个 例 程 将 多 字 整 数 中 的 最 高 有 效 位 放 在 最 高 地 址 字 节 就 足够 了 。 

这 个 例 程 的 男 一 个 复杂 性 是 使 用 sem Wait 和 sendWindowNotFull 信号 量 。sendWin- 
dowNotFull 被 初始 化 为 发 送 方 滑动 窗口 的 大 小 SWS (未 显示 这 一 初始 化 )。 发 送 方 每 传输 
— tit, semWait 操作 将 这 个 数 减 1， 如 果 减 小 到 0， 则 阻塞 发 送 方 进程 。 每 收 到 一 个 
ACK, 在 deliverSWP 中 调用 semSignal 操作 (如 下 所 示 ) 将 此 数 加 1， 从 而 解除 等 待 中 的 
发 送 方 进程 的 阻塞 。 

static int 

sendSWP(SwpState *state, Msg *frame) 

{ 


struct send0 slot *slot; 
hbuf [HLEN]; 


/* wait for send window to open */ 
semWait(&state->sendWindowNotFull); 
state->hdr.SeqNum = ++state->LFs; 
slot = &state->sendO[state->hdr.SeqnNum % SWS]; 
store_swp_hdr(state->hdr, hbuf); 
msgAddHdr( frame, hbuf, HLEN); 
msgSaveCopy(&slot->msg, frame); 
slot->timeout = evSchedule(swpTimeout, slot, 
SWP_SEND_TIMEQUT); 

return send(LINK, frame); 

} 


在 到 达 SWP 的 接收 端 之 前 ， 需 要 协调 一 下 表面 的 不 一 致 。 一 方面 ,我们 一 直 声 称 高 
层 协议 通过 调用 send 操作 实现 对 低层 协议 服务 的 调用 。 因 此 期 望 通过 SWP 发 送 消息 的 协 
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议 将 会 调用 send (SWP, packet), 5—7 m, 实现 SWP 发 送 操作 的 过 程 是 sendSWP. 
它 的 第 一 个 参数 是 一 个 状态 变量 (SwpState) 。 怎 么 进行 协调 呢 ? 答案 是 操作 系统 提供 了 
将 send 的 普通 调用 转换 成 一 个 协议 特定 的 sendSWP 调用 的 粘 合 代码 。 该 粘 合 代 但 将 send 
的 第 一 个 变量 (神奇 的 协议 变量 SWP) 映射 成 两 个 指针 : 一 个 sendSWP 的 函数 指针 和 一 
个 SWP 工作 所 需要 的 协议 状态 指针 。 我 们 让 高 层 协 议 不 直接 通过 普通 的 函数 调用 实现 协 
议 特定 的 函数 调用 的 原因 是 想 限 制 高 层 协议 对 低层 协议 编码 的 信息 量 ， 这 将 使 得 以 后 改变 
协议 图 配置 变 得 容易 。 

现在 来 看 deliver 操作 的 SWP 的 特定 协议 实现 ， 它 在 过 程 deliverSWP 中 给 出 。 这 个 
例 程 实际 上 处 理 两 种 不 同类 型 的 输入 消息 : 本 节点 先 发 出 帧 的 ACK 和 到 达 这 个 节点 的 数 
据 帧 。 在 某 种 意义 上 ， 这 个 例 程 的 ACK 部 分 是 与 sendSWP 中 所 给 算法 的 发 送 方 相对 应 
的 。 通 过 检验 首部 的 Flags 字段 可 以 确定 输入 的 消息 是 ACK 还 是 一 个 数据 帧 ， 注意， 这 
种 特殊 的 实现 不 支持 数据 帧 中 撒 带 ACK. 

当 输 入 帧 是 ACK 时 ，deliverSWP 仅仅 在 发 送 队 列 (sendQ) 中 寻找 与 此 ACK 相应 的 
人 位置， 取消 超时 事件 ， 并 且 释 放 保 存在 那个 位 置 的 帧 。 由 于 ACK 可 能 是 累积 的 .所 以 这 
项 工作 实际 上 是 在 一 个 循环 中 进行 的 。 对 于 这 种 情况 值得 注意 的 另 一 个 问题 是 调用 子 例 程 
swpInWindow。 这 个 子 例 程 在 下 面 给 出 ， 它 确保 被 确认 帧 的 序号 是 在 发 送 方 当前 布 望 收 到 
的 ACK 的 范围 之 内 。 

当 输 入 帧 包含 数据 时 ，deliverSWP 首先 调用 msgStripHdr 和 load_swp_hdr L fE M iwi 
中 提取 出 首部 。 例 程 en ee 对 应 于 前 面 讨论 的 store_swp_hdr， 它 将 一 个 宇 节 串 
转化 为 保存 SWP 首部 的 C 语言 数据 结构 。 然 后 deliverSWP 调用 swpInWindow 以 确保 帧 
序号 在 期 望 的 序号 范围 内 。 如 果 是 这 样 ， 那 么 例 程 在 已 收 到 的 连续 帧 的 集合 上 循环 ， 并 
通过 调用 deliverHLP 例 程 将 它们 传 给 高 层 协议 。 它 也 要 向 发 送 方 发 回 昧 积 的 ACK. 但 
是 通过 接收 队列 上 的 循环 来 实现 (不 用 本 节 前 面 给 出 的 在 实际 描述 中 使 用 的 SeqNumTo 
Ack 变量 )， 


static int 





deliverSWP(SwpState state, Msg *frame) 
{ 

SwpHdr hdr; 

char xhbuf ; 


hbuf = msgStripHdr( frame, HLEN); 
Joad_swp_hdr(&hdr, hbuf) 
if (hdr->Flags & FLAG_ACK_VALID) 
{ 
/* received an acknowledgment---do SENDER side */ 
if (swpInWindow(hdr.AckNum, state->LAR + 1, 
state->LFS)) 
{ 
do 
{ 
struct sendQ_slot «slot; 


slot = &state->sendO[++state->LAR % SWS]; 
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evCancel(slot->timeout); 

msgDestroy(&slot->msg); 

semSignal(&state->sendWindowNotFull); 
} while (state->LAR != hdr.AckNum); 


if (hdr.Flags & FLAG_HAS_DATA) 


{ 
struct recvO_slot «slot; 


/* received data packet---do RECEIVER side */ 

slot = &state->recvO{hdr.SeqNum % RWS); 

if (!swpInWindow(hdr.SeqnNum, state->NFE, 
state->NFE + RWS - 1)) 


/* drop the message */ 
return SUCCESS; 
} 
msgSaveCopy(&slot->msg, frame); 
slot->received = TRUE; 
if (hdr.SeqNum == state->NFE) 
{ 
Msg m; 


while (slot->received) 
{ 
deliver(HLP, &slot->msg); 
msgDestroy(&slot->msg); 
slot->received = FALSE; 
slot = &state->recvO[++state->NFE % RWS]; 
} 
/* send ACK: «*/ 
prepare_ack(&m, state->NFE - 1); 
send(LINK, &m); 
msqDestroy(&m); 


| 
return SUCCESS; 
| 


最 后 ，swpInWindow 是 一 个 简单 的 子 例 程 ， 它 检查 一 个 给 定 的 序号 是 否 落 在 某 个 最 
大 和 最 小 序号 之 间 。 


static bool 

swpInWindow(SwpSeqno seqno, SwpSeqno min, SwpSeqno max) 

| 
SwpSeqno pos, maxpos; 
pos = seqno - min; /* pos *should* be in range [0..MAX) */ 
maxpos = max min + 1; /* maxpos is in range [0..MAX] */ 


return pos < maxpos; 
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4. 帧 顺序 和 流量 控制 

滑动 窗口 协议 可 能 是 计算 机 网 络 中 最 著名 的 算法 。 然 而， 关于 该 算法 易 产 生 的 混淆 是 ， 
它 可 以 用 于 三 个 不 同 的 任务 ， 第 一 个 任务 是 本 节 的 重点 ， 即 在 不 可 靠 链 路 上 可 靠 地 传输 帧 
(一 般 说 来 ， 该 算法 被 用 于 在 一 个 不 可 靠 的 网 络 上 可 靠 地 传输 消息 .) 这 是 算法 的 核心 功能 . 

滑动 窗口 算法 的 第 二 个 任务 是 用 于 保持 帧 的 传输 顺序 。 这 在 接收 方 比 较 容 易 内 
为 每 个 帧 有 一 个 序号 ， 接 收 方 只 要 保证 在 它 已 经 向 下 一 个 高 层 协议 传递 所 有 序号 比 当 前 帧 
序号 小 的 帧 之 前 ， 不 向 上 传送 帧 。 就 是 说 ， 接 收 方 缓存 〈 即 不 传送 ) 错 序 的 帧 。 pee 
岂可 以 想象 另 一 个 版 本 ， 即 接收 方 将 帧 传 给 下 一 个 协议 而 不 等 待 先 前 传送 的 所 有 帧 都 到 
达 ， 口算 法 版 本 采用 的 方法 是 保持 帧 的 顺序 。 我 们 应 该 问 自己 的 一 
个 问题 是 : 是 否 确实 需要 滑动 窗口 ar 或 者 说 ， 在 链 路 层 egin 
能 是 否 EERU, 不 幸 的 是 ， 目 前 我 们 对 网 络 体系 结构 的 了 解 还 不 足以 回答 这 个 问题 
我 们 SEAZA 解 的 是 ， 点 到 点 链 路 序列 如 何 由 交换 机 连接 成 一 条 de 

滑动 窗口 算法 的 第 三 个 任务 是 ， 它 有 时 支持 流量 控制 (Clow control)。 这 是 一 种 接收 
方 能 够 控制 发 送 方 的 反馈 机 制 ， 用 于 抑制 发 送 方 发 送 速度 过 快 ， ADAT Le 
Ak SHA E Z A OCH. OC IRD A GEL TR oh Ba OR TE A AEE AS A A BY o 
而 且 通 知 发 送 方 它 还 可 接收 多 少 帧 。 可 接收 的 帧 数 对 应 于 接收 方 有 多 大 的 空闲 缓冲 区 空 
间 。 在 按 序 传递 的 情况 下 ， 在 将 流量 控制 并 人 滑动 窗口 协议 之 前 ， 我 们 应 该 确信 流量 控制 
在 链 路 层 是 必要 的 ， 

结论 ”尚未 讨论 的 一 个 重要 概念 是 系统 设计 原理 . 我 们 称 之 为 相关 性 分 离 (sep- 

aration of concerns)。 即 必须 仔细 区 别 有 时 交织 在 一 种 机 制 中 的 不 同 功 能 . 并且 

涂 须 确信 每 一 个 功能 都 是 必需 的 ， 而 且 是 以 最 有 效 的 方式 得 到 支持 。 在 这 种 特定 

的 情况 下 ， 可 靠 传输 、 按 序 传 输 和 流量 控制 有 时 组 合 在 一 个 滑动 窗口 协议 里 ， 我 

们 应 该 反思 ， 在 链 路 层 这 样 做 是 否 正 确 。 带 着 这 样 的 疑问 ， 我 们 将 在 第 3 章 (说 

明 X.25 网 络 如 何 用 它 实 现 跳 到 跳 的 ph 和 第 5 章 (描述 TCP wtr A È 

现 可 靠 的 字 节 流 信道 ) 重新 探讨 滑动 窗口 算法 。 





X 


2.5.3 并 发 逻辑 信道 
用 在 ARPANET 网 中 的 数据 链 路 协议 为 滑动 窗口 协议 提供 了 一 种 有 趣 的 变换 ,虽然 
它 仍 采用 简单 的 停止 -等 待 算法 ,但 它 能 保持 管道 满载 。 这 种 方法 的 一 个 重要 结果 是 .在 
一 个 给 定 链 路 上 传输 的 蝴 并 不 保 # 放任 何 特定 的 顺序 ， 该 协议 也 没有 流量 控制 。 
我 们 称 为 并 发 远 辑 信道 (concurrent logical channel) 的 ARPANET 协议 的 基本 思想 
， 在 一 个 点 到 点 链 路 上 多 路 复 用 多 个 网 辑 信道 ， 并 且 在 每 个 逻辑 信道 上 运行 停止 -等 竺 
算法 ， 在 任意 逻辑 信道 上 传输 的 帧 之 间 没 有 任何 关系 ， 同 时 因为 在 每 个 逻辑 信道 上 可 以 有 
一 个 不 同 的 待 确认 帧 ， 所 以 发 送 方 可 保持 链 路 满载 。 
更 准确 地 说 ， 发 送 方 为 每 一 信道 状态 留 有 3 个 比特 : 一 个 布尔 量 ， 说 明 信 道 当前 是 否 
处 于 忙 委 状态 ;1 比特 序号 ， 说 明 下 次 在 这 个 逻辑 信 Dee MOUTE Sr 以 及 下 一 帧 的 
训 号 ， 说 明 期 望 到 达 这 一 信道 的 帧 的 序号 。 当 节点 有 一 个 帧 要 发 送 时 ， 它 使 用 序号 最 小 的 
空闲 信道 ， 而 其 他 方面 它 的 表现 就 像 停止 -等 待 一 样 。 
实际 上 ，ARPANET 网 在 每 个 地 面 链 路 上 支持 8 个 逻辑 信道 ， 在 每 个 卫星 链 路 上 支持 16 





Pw. 在 地 面 链 路 中 ， 每 帧 的 首部 包含 了 3 比特 的 信道 号 和 1 比特 的 序号 ,总共 4 比 
te. 当 RWS=SWS 时 ， 这 恰 是 滑动 窗口 协议 在 链 路 上 最 多 支持 8 个 符 确 认 帧 所 需 的 比特 数 。 


2.6 以 太 网 和 多 路 访问 网 络 (802.3) - 


毫 无 疑问 ， 以 太 网 是 最 近 20 年 中 最 成 功 的 局 域 网 技术 。 它 是 20 世纪 70 年 代 中 期 由 
施乐 公司 的 帕 洛 阿尔 托 研究 中 心 (PARC 开发 的 。 以 太 网 是 一 个 正在 使 用 的 、 更 通用 的 
带 冲 突 检 测 的 载波 监听 多 路 访问 (CSMA/CD) 局 域 网 技术 的 例子 。 

正如 CSMA 的 名 字 所 表明 的 ， 以 太 网 是 一 个 多 路 访问 网 络 ， 即 一 组 节点 通过 一 个 共享 链 
路 发 送 和 接收 帧 。 因此 你 可 以 把 以 太 网 想象 成 一 辆 公共 汽车 ， 可 以 从 多 个 站 点 进入 。 在 CS- 
MA/CD 中 ,“ 载 波 监听 ”意味 着 所 有 节点 可 识别 链 路 的 忙 或 闲 .“ 冲 突 检测 ”意味 着 当 一 个 节 
点 传输 时 要 监听 线路 ， 因 此 可 以 检测 到 正在 传输 的 帧 与 男 一 节点 传输 的 帧 发 生 干 扰 (冲突 )， 

以 太 网 可 以 追溯 到 早期 由 夏威夷 大 学 开发 的 一 个 分 组 无 线 网 一 一 Aloha， 它 支持 横 跨 
夏威夷 岛 的 计算 机 通信 。 像 Aloha 网 一 样 . 以太 网 所 面临 的 主要 问题 是 如 何 调解 对 一 个 共 
享 介质 的 公平 而 有 效 的 访问 (在 Aloha th. 介质 是 空气 ,而 在 以 太 网 中 ， 介质 是 一 条 同 轴 
电缆 )。 也 就 是 说 .Aloha 和 以 太 网 的 中 心思 想 是 一 个 控制 每 个 节点 何 时 能 传输 的 算法 。 

有 趣 的 是 ， 当 今 的 以 太 网 链 路 主要 是 点 对 点 形式 的 ， 将 主机 连接 到 以 太 网 交换 机 ,或 
者 交换 机 之 间 互 相连 接 。 因 此 ,“ 多 路 访问 技术 ”在 今天 的 以 太 网 中 没有 使 用 。 同 时 , 无 
线 网 络 越 来 越 流 行 ， 因 此 起 源 于 Aloha 的 多 路 访问 技术 当前 被 广泛 用 于 无 线 网 络 中 ， 例 如 
802.11 (Wi-Fi) 网 络 。 这 些 网 络 将 在 2.7 节 探 讨 。 

下 一 瘟 中 将 介绍 以 太 网 交换 技术 。 现 在 ， 我 们 关注 一 条 以 太 网 链 路 如 何 工 作 ， 多 路 访 
问 以 太 网 正在 成 为 历史 ， 多 路 访问 网 络 的 机 制 对 于 进一步 的 讨论 非常 重要 ， 下 面 会 介绍 。 

1978 年 ， 数 字 设备 公司 (DEC) 和 英特尔 (Intel) 公司 联合 施乐 (Xerox) 公司 定义 
F 10Mbps 以 太 网 标准 。 这 个 标准 后 来 成 为 IEEE 标准 802. 3 的 基础 ， 它 定义 了 以 太 网 采 
用 的 物理 介质 的 标准 ,包括 100Mbps、1Gbps 和 10Gbps 的 版 本 。 


2.6.1 物理 特性 


以 太 网 段 是 在 长 度 最 高 可 达 500m 的 同 轴 电 缆 上 实现 的 (现在 的 以 太 网 使 用 双 绞 线 ， 
通常 使 用 “5 类 ” 线 或 光纤 ， 有 时 一 个 网 段 的 长 度 可 超过 500m)。 这 个 电缆 类 似 于 有 线 电 
视 所 用 的 电缆 类 型 。 主 机 通过 分 接头 连接 到 以 太 网 段 上 。 


/收发 器 
收发 器 (transceiver) 是 一 种 直接 连接 到 分 接头 的 设备 ， Pl 
它 检测 线路 何 时 空闲 ， 并 在 主机 发 送 时 驱动 信号 。 它 也 可 DA A h A 
接收 输入 信号 。 收 发 器 连 到 以 太 网 适配器 上 ， 而 适配器 | gyae 


是 插 在 主机 上 的 。 这 种 配置 如 图 2-22 所 示 。 

多 个 以 太 网 段 可 由 中 继 器 (repeater) 连接 起 来 。 中 
继 占 是 一 个 转发 数字 信号 的 设备 ， 很 像 转 发 模拟 信号 的 
放大 顺 。 中 继 器 只 理解 比特 而 不 理解 帧 。 然 而 ,在任 一 
对 主机 之 间 最 多 可 以 安装 四 个 中 继 吉 ,这 意味 着 里 型 的 - 
以 太 网 总 共 只 能 达到 2 500m。 例 如 ， 在 任 一 对 主机 间 只 图 2-22 以 太 网 收发 器 和 适配器 








> 参见 “实验 一 ” 
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使 用 两 个 中 继 器 支持 类 似 于 图 2- 23 的 配置 ， 即 建筑 物 垂 直方 向 有 一 个 主干 网 段 ， 同 时 每 
层 楼 一 个 网 段 。 

我 们 也 可 以 使 用 多 口 的 中 继 器 ， 有 时 称 为 集线器 (hub)， 如 图 2-24 所 示 。 对 于 从 集 
线 器 的 某 个 端口 输入 的 信号 ， 它 将 向 其 各 个 端口 转发 。 
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图 2-23 以 太 网 中 继 器 图 2-24 以 太 网 集线器 


主机 送 到 以 太 网 上 的 任何 信号 都 是 向 全 网 广播 的 ， 即 信号 在 两 个 方向 传播 ， 并 由 中 继 
器 或 集线器 将 信和 号 转发 到 所 有 输出 网 段 。 连 到 每 一 网 段 末 端的 终结 闫 吸收 信号 并 阻止 它 反 
射 和 干扰 后 续 信 和 号。 原先 的 以 太 网 使 用 2. 2 节 描 述 的 曼彻斯特 编码 方案 ， 而 今天 的 高 速 以 
太 网 使 用 4B/5B 编码 方案 或 类 似 的 8B/10B 编码 方案 。 

了 解 下 面 一 点 是 很 重要 的 : 不 管 一 个 给 定 的 以 太 网 是 只 跨越 一 个 网 段 ， 还 是 由 中 继 需 
互联 的 一 个 线性 网 段 序列 ， 或 者 是 由 一 个 集线器 将 多 个 网 段 连接 而 成 的 星 形 配置 ， 这 种 以 
太 网 上 任意 一 台 主 机 传输 的 数据 都 能 够 到 达 所 有 其 他 主机 。 这 是 好 的 一 面 ， 而 不 好 的 一 面 
是 ， 所 有 主机 竞争 访问 同一 条 链 路 ， 结 果 处 在 同一 个 冲突 域 (collision domain) 中 。 以 太 
网 的 多 路 访问 协议 需要 处 理 冲 突 域 中 链 路 的 竞争 问题 。 





2.6.2 访问 协议 

现在 把 注意 力 转向 控制 访问 共享 以 太 网 链 路 的 算法 ， 这 种 算法 一 般 称 为 以 太 网 的 介质 
访问 控制 (Media Access Control，MAC)， 通 常 在 网 络 适 配 需 上 以 硬件 方式 实现 。 我 们 并 
不 描述 硬件 本 身 ， 而 是 考虑 它 实现 的 算法 。 下 面 首先 描述 以 太 网 的 帧 格式 和 地 址 。 

1. 帧 格式 

以 太 网 帧 格式 如 图 2- 25 所 示 。64 位 的 Preamble (前 同步 码 ) 允许 接收 方 与 信号 同 
步 ， 它 是 一 个 0 与 1 的 交替 序列 ， 各 用 一 个 48 位 的 地 址 标识 源 主机 和 目的 主机 。 分 组 
Type (类 型 ) 字段 用 作 多 路 分 解密 钥 ， 即 标识 应 该 将 这 个 帧 传递 给 哪 一 个 高 层 协 议 。 每 帧 
最 多 包含 1 500 字 节 数据 ， 至 少 包含 46 字 节 数据 ， 即 使 这 意味 着 主机 在 传 帧 之 前 必须 对 它 
进行 填充 。 规 定 最 小 帧 长 度 是 因为 帧 必须 足够 长 才 可 能 检测 到 冲突 ， 下 面 将 详细 讨论 这 一 
点 。 最 后 ， 每 一 帧 包含 一 个 32 位 的 CRC。 像 2.3. 2 节 中 描述 的 HDLC 协议 一 样 ， 以 太 网 
是 一 个 面向 比特 的 组 帧 协议 。 注 意 ， 从 主机 的 角度 看 ， 以 太 网 帧 有 一 个 14 字 节 的 首部 : 
两 个 6 字 节 的 地 址 和 一 个 2 字 节 的 类 型 字段 。 发 送 适 配器 在 发 送 之 前 加 上 前 同步 码 、CRC 
和 后 同步 码 ， 接 收 方 适配器 再 去 掉 它 们 。 














图 2-25 以 太 网 帧 格式 


2. 地 址 

以 太 网 上 的 每 台 主 机 一 一 实际 上 世界 上 每 个 以 太 网 的 每 台 主 机 一 一 都 有 一 个 唯一 的 以 
太 网 地 址 。 从 技术 上 讲 ， 地址 属于 适配器 而 不 是 主机 ， 通 常 固化 在 ROM 中 。 以 太 网 地 址 
以 可 读 的 方式 显示 ， 即 由 冒号 分 隔 的 6 个 数 。 每 个 数 对 应 于 6 字 节 地 址 的 1 个 字 节 ， 并且 
由 一 对 16 进 制 数 给 出 ， 每 个 16 进 制 数 对 应 4 比特 ， 而 且 去 掉 前 导 0。 例 如 ，8:0:2b:e4: 
bl:2 是 一 个 可 读 的 以 太 网 地 址 ， 表 示 为 

00001000 00000000 00101011 11100100 10110001 00000010 

为 了 保证 每 个 适配器 得 到 一 个 唯一 的 地 址 ， 需 要 对 每 个 以 太 网 设备 制造 商 分 配 一 个 不 
同 的 前 级 ， 这 个 前 缀 必须 加 到 他 们 制造 的 每 一 个 适配器 的 地 址 上 。 例 如 ， 先 进 设备 公司 
(AMD) 分 配 到 的 24 位 的 前 级 是 x080020 (或 8:0:20)。 然 后 ， 制 造 商 必须 保证 其 生产 的 
加 上 后 组 的 地 址 是 唯一 的 。 

在 以 太 网 上 传输 的 每 一 帧 可 由 连 到 以 太 网 上 的 所 有 适配器 接收 到 。 每 个 适配器 将 这 些 
帧 的 地 址 与 自己 的 地 址 比较 ， 仅 向 主机 传递 发 送 给 自己 的 帧 。( 可 对 一 个 适配器 编程 ， 使 
其 以 混杂 (promiscuous) 模式 运行 ,在 这 种 情况 下 ， 它 向 主机 传递 所 有 收 到 的 帧 ， 但 这 
不 是 常规 模式 .) 除了 这 些 单 播 (unicast) 地 址 外 ， 一 个 由 全 1 构成 的 以 太 网 地 址 表示 一 
个 广播 (broadcast) 地 址 ， 所 有 的 适配器 向 主机 传递 具有 广播 地 址 的 帧 。 类 似 地 ， 所 有 第 
一 位 为 1 但 不 是 广播 地 址 的 地 址 称 为 多 播 (mnulticast) 地 址 。 一 台 给 定 的 主机 可 对 它 的 适 
配 盘 编程 以 接收 多 播 地 址 的 某 个 集合 。 多 播 地 址 用 于 向 以 太 网 上 某 台 主机 的 子 集 传送 消息 
(例如 所 有 文件 服务 器 )。 总 之 ,一 个 以 太 网 适配器 接收 所 有 帧 ,并且 接 收 : 

© 编 址 为 它 自己 地 址 的 帧 。 

。 编 址 为 广播 地 址 的 帧 。 

。 编 址 为 多 播 地 址 的 帧 ， 如 果 适 配器 在 监听 那个 地 址 。 

。 所 有 帧 ， 如 果 适 配器 处 于 混杂 模式 。 

以 太 网 适 配 融 只 向 主机 传递 它 接收 到 的 帧 。 

3. 发 送 回 算法 : 

正如 我 们 已 看 到 的 ， 在 以 太 网 协议 中 ， 接 收 方 一 边 是 简单 的 ， 真正 的 难点 是 在 发 送 方 
一 边 实 现 的 ， 发 送 需 算法 定义 如 下 。 . 

当 适 配 融 有 一 帧 要 发 送 并 且 线 路 空闲 时 ， 它 立即 发 送 这 一 帧 ， 不 存在 与 其 他 适配器 协 
商 的 问题 。 消 息 中 1 500 字 节 的 上 界 意味 着 适配器 只 能 以 一 段 定 长 时 间 占 用 线路 。 

当 适 配 带 有 一 帧 要 发 送 并 且 线路 忙 时 ， 则 等 待 线路 空闲 ， 然 后 立即 发 送 。9 因为 要 发 送 
帧 的 适配器 无 论 线路 何 时 空 亲 ， 都 以 概率 1 发 送 ， 因 此 称 以 太 网 是 1- 坚持 (1-persistant) 协 
以 。 一 般 来 讲 ， 广 坚持 Cp-persistant) 的 算法 在 线路 变 为 空闲 时 ， 以 概率 OO p< 发 送 ， 并 
以 概率 4 二 1 一 户 推迟 发 送 。 选 pl 的 原因 是 ， 可 能 有 多 个 适配器 在 等 待 线路 成 为 空闲 ， 








S ”更 准确 地 说 ， 在 一 帧 结束 后 开始 传输 下 一 帧 之 前 ， 所 有 适配器 都 会 等 待 9. 6 心 。 对 于 第 一 帧 的 发 送 方 和 正在 监听 
以 等 待 线路 变 为 空闲 状态 的 节点 而 言 均 是 如 此 。 
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我 们 不 想 让 它们 同时 开始 发 送 。 比 如 ， 如 果 每 一 个 适 配 需 都 以 概率 33% We EAEE. 那么 最 
多 有 三 个 适 配 需 在 等 竺 发送， 但 线路 空闲 时 将 只 有 一 个 适配器 开始 发 送 ,， 尽管 如 此 ， 以 大 
网 适 配 天 在 看 到 网 络 变 为 空闲 时 总 是 立即 发 送 的 ， 而 且 这 样 做 效率 很 疝 ， 

对 于 pl 时 的 广 坚 持 协 议 的 完整 细节 ， 你 可 能 想 知 道 搓 硬币 输 掉 〈 即 决定 推 返 ) 的 
发 送 方 在 能 够 发 送 之 前 需要 等 竺 多久 。 最 先 开发 这 种 类 型 协议 的 Aloha 网 的 答案 是 ， 将 时 
间 分 成 离散 的 时 间 片 ， 每 个 时 间 片 对 应 于 传输 一 个 完整 帧 所 用 的 时 间 。 只 要 节点 有 一 帧 要 
发 送 ， 并 且 监 听 到 一 个 空 〈 空 闲 ) 的 时 间 片 ， 它 就 以 概率 户 传输 ， 或 以 概率 q= p—1 推迟 
到 下 一 个 时 间 片 。 如 果 下 一 个 时 间 片 也 是 空 的 ,那么 节点 再 次 分 别 以 概率 p 和 g 决定 传输 
或 推迟 。 如 果 下 一 个 时 间 片 不 是 空 的 ， 即 另外 某 个 站 已 决定 传输 ， 那 么 该 节点 则 震 等 待 下 
一 个 空闲 时 间 片 并 重复 算法 。 

回 到 以 太 网 的 讨论 ， 因 为 不 存在 中 央 控 制 ， 所 以 可 能 有 两 个 (或 更 多 ) ii fic ae a] WY IF 
始 传输 ， 或 是 因为 两 者 都 发 现 线路 空 闻 或 两 者 都 在 等 待 线路 变 空间 。 当 这 种 情况 发 生 时 . 
称 为 两 个 〈 或 更 多 ) 帧 在 网 上 冲突 (collide)。 因 为 以 太 网 支持 冲突 检测 ,所 以 每 个 发 送 
方 能 确定 冲突 的 发 生 。 当 适配器 检测 出 自己 的 帧 与 其 他 帧 冲突 时 它 首 先 确保 传输 32 位 
干扰 序列 ， 然 后 停止 传输 。 因 此 ， 发送 需 在 冲突 的 情况 下 将 最 少 发 送 96 位 : 64 位 前 同步 
码 加 32 位 干扰 序列 。 

适配器 只 发 送 96 位 〈 有 时 称 为 残缺 帧 (runt frame)) 的 一 种 情形 是 . 两 台 主 机 彼此 
接近 。 如 果 两 台 主 机 相距 较 远 ,那么 在 检测 到 冲突 之 前 ， 它们 不 得 不 传输 较 长 时 间 . 因而 
要 发 送 更 多 的 位 。 事 实 上 ， 当 两 台 主机 处 于 以 太 网 的 两 个 相对 端点 时 ， 就 会 出 现 最 坏 的 情 
况 。 为 了 确切 知道 刚刚 发 送 的 帧 没有 与 其 他 帧 冲突 ， 发 送 器 可 能 需要 发 送 512 位 。 这 并 不 
是 巧合 ， 每 个 以 太 网 帧 的 长 度 必 须 至 少 为 512 位 〈64 字 节 ): 14 字 节 的 首部 加 上 46 FI 
的 数据 加 上 4 字 节 的 CRC. 

为 什么 是 512 位 ? 答案 与 以 太 网 的 另 一 个 令 人 困惑 iy 
的 问题 有 关 : 为 什么 它 的 长 度 仅 限制 在 2 500m? 为 什 | 
么 不 是 10km 或 1 000km? 这 两 个 问题 的 答案 都 与 下 面 =] 
的 事实 有 关 : 两 个 节点 相距 越 远 ， 一 个 节点 发 送 的 帧 到 a) A 在 时 刻 1 发 送 一 帧 
达 另 一 个 节点 的 时 间 越 长 ， 网 络 就 越 容易 在 这 段 时 间 内 i 

| 


B 
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图 2-26 表明 了 最 坏 的 情形 ， 其 中 主机 A 和 主机 B me 
处 于 网 络 的 相对 两 端 。 假 设 主机 A 在 时 刻 上 开始 传输 一 b) A 的 帧 在 时 刻 :+qd 到 达 B 
个 帧 ， 如 图 2-26a 所 示 。 该 帧 到 达 主 机 B 用 了 一 个 链 路 A na 
时 延 ( 时 延 用 4 表示 )。 这 样 ，A 的 帧 的 第 一 个 比特 在 
时 刻 +d 到 达 B, WA 2- 26b 所 示 。 假 设 主机 A 的 帧 一 一 -一 


=) 
到 达 前 的 一 个 时 刻 〈 即 B 仍 看 到 一 个 空闲 线路 )， 主 机 。) B 在 时 刻 1+4 开 始 传输 ， 与 A 的 帧 冲突 











B 开始 传输 它 自 己 的 帧 。B 的 帧 将 立即 与 A 的 帧 冲突 ， A B 
并 且 主 机 B 将 检测 到 这 一 冲突 ， 如 图 2-26c 所 示 。 如 上 “ 久 au 


所 述 ， 主 机 B 将 发 送 32 位 的 干扰 序列 。(B 的 帧 是 一 个 L d 
RWO 不 幸 的 是 ， 主 机 A 直到 B 的 帧 到 达 时 才 知 道 Eee 
发 生 了 冲突 ， 这 将 发 生 在 一 个 链 路 时 延 之 后 ， 即 在 时 刻 d) 8B 的 残缺 帧 在 时 刻 !+2d 到 达 A 


1 十 2Xd， 如 图 2-26d 所 示 。 主 机 A 必须 继续 传输 直到 图 2-26 最 坏 的 情形 
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这 一 时 刻 才 能 检测 到 冲突 。 换 句 话说， 主机 A 必须 传输 2X& 的 时 间 以 确保 检测 到 所 有 冲 
突 。 考虑 最 大 配置 的 以 太 网 长 度 是 2 500m， 并 且 两 台 主 机 之 间 最 多 可 能 有 4 PARA. tE 
返 延迟 是 51. 2ys， 在 一 个 10Mbps 以 太 网 上 对 应 于 512 位 。 考 查 这 种 情况 的 另 一 种 方式 
是 ， 为 了 使 访问 算法 起 作用 ， 需 要 将 以 太 网 的 最 大 时 延 限制 为 一 个 相当 小 的 值 〈 例 如 
51. 21s)。 因 此 ,以太 网 的 最 大 长 度 必 须 是 2 500m 左右 。 

一 旦 适配器 检测 到 冲突 并 停止 传输 ， 它 会 等 待 一 定 的 时 间 后 再 尝试 。 在 每 次 尝试 发 
送 但 失败 后 ， 适 配器 把 等 待 时 间 加 倍 ， 然 后 再 试 。 每 次 使 重 传 尝 试 间 的 延迟 间隔 加 们 的 
策略 ， 一 般 称 为 指数 退 避 (exponential backoff) 技术 。 更 精确 地 说 ， 适 配 占 首先 随机 选 
择 延 迟 0 或 51. 2ys。 如 果 这 次 发 送 失 败 ,， 那么 它 (随机 选择 ) 等 待 0、51. 2us, 
102. dus BẸ 153. 6us 之 后 再 试 ， 这 个 时 间 即 是 kX51.2 (对 于 k=0~3)。 第 3 次 冲突 之 
后 ， 它 再 随机 选择 等 待 &kX51,2 (对 于 AhA=0 一 23 一 1)。 一 般 来 讲 ， 算 法 在 0 M 27-1 之 
间 随 机 选择 一 个 并 等 待 &X51.2pys， 其 中 是 至 今 经 历 的 冲突 次 数 。 适 配 融 在 尝试 给 
定 次 数 后 将 放弃 尝试 ， 并 向 主机 报告 传输 错误 。 虽然 退 避 算 法 在 上 面 的 公式 中 将 nn 定 为 
10， 但 是 适配器 通常 最 多 尝试 16 次 。 

2.6.3 以 太 网 使 用 经 验 

由 于 以 太 网 已 存在 很 多 年 而 且 很 流行 ， 因 此 积累 了 大 量 的 以 太 网 使 用 经 验 。 最 重要 的 
观测 结果 之 一 是 以 太 网 在 轻 载 情况 下 工作 很 好 。 这 是 因为 在 重 载 下 (在 以 太 网 上 ,通常 超 
过 30% 的 利用 率 就 被 认为 是 重 载 )， 冲 突 使 网 络 能 力 大 量 浪 费 且 急 剧 下 降 。 

幸运 的 是 ， 大 部 分 以 太 网 是 在 比 标准 允许 方式 更 保守 的 方式 下 使 用 的 。 例 如 ， 大 部 分 以 
太 网 上 连接 的 主机 数 少 于 200， 远 小 于 最 大 数量 1024。( 在 第 4 章 可 能 找到 上 限 大 约 是 200 台 
主机 的 理由 。) 类 似 地 ， 大 部 分 以 太 网 的 距离 远 小 于 2 500m， 往 返 延 迟 接近 Sys 而 不 是 
51. 258s。 另 一 个 以 太 网 的 实用 因素 是 ， 即 使 以 太 网 适配器 没有 实现 链 路 层 流 量 控制 ， 主 机 通 
常会 提供 一 种 端 到 端的 流量 控制 机 制 。 因 此 ， 很 少 出 现 一 台 主 机 连续 把 帧 送 到 网 上 的 情况 。 

最 后 简要 说 明 一 下 为 什么 以 太 网 如 此 成 功 ， 这 样 我 们 就 能 够 理解 以 太 网 具有 的 能 与 任 
何 试图 蔡 代 它 的 LAN 技术 相 竞争 的 特性 。 首 先 ， 以 太 网 极 易 管理 和 维护 : 不 存在 出 故障 
的 交换 机 ， 也 没有 需要 不 断 更 新 的 路 由 选择 表 或 配置 表 ， 并 且 易 于 向 网 络 增加 一 台新 的 主 
机 。 对 管理 者 而 言 ， 很 难 想象 更 简单 的 网 络 了 。 其 次 ， 它 的 价格 低廉 : 电缆 便宜 ， 唯 一 的 
其 他 成 本 是 每 台 主 机 上 的 网 络 适 配器 。 这 些 原 因 使 得 以 太 网 的 地 位 非常 牢 回 ， 而 任何 试图 
取代 以 太 网 的 其 他 基于 交换 技术 的 方法 ， 都 需要 在 网 络 适配器 的 成 本 之 上 附加 额外 的 基础 构 
件 〈 交 换 机 ) 投资 。 我 们 在 下 一 章 可 以 看 到 ， 采 用 基于 交换 技术 的 交换 式 以 太 网 成 功 取 代 了 
多 路 访问 以 太 网 ， 一 如 既往 的 易于 管理 特性 是 其 成 功 的 关键 。 

2.7 无 线 ” 

无 线 网 络 技术 在 很 多 方面 与 有 线 网 络 不 同 ， 但 也 有 许多 共同 的 特性 。 在 无 线 链 路 中 ， 
比特 差错 是 必须 要 关注 的 ， 因 为 大 部 分 无 线 链 路 都 无 法 避免 噪声 环境 。 在 无 线 网 络 中 组 帧 
和 可 靠 性 也 必须 要 考虑 。 与 有 线 网 络 不 同 ， 因 为 使 用 无 线 网 络 的 通常 是 小 型 移动 设备 (如 
电话 和 传 感 融 )， 因 此 其 能 量 受 限 (例如 电池 容量 较 小 )。 而 且 ， 无 线 传输 设备 的 功率 也 不 





> 参见 “实验 二 "”。 
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能 太 高 ， 否 则 会 和 其 他 设备 相互 干扰 ， 因 此 在 给 定 频率 的 情况 下 设备 的 功率 是 受 限 的 。 

无 线 介 质 也 采用 多 路 访问 方式 ， 将 无 线 信 号 仅 传输 给 一 个 接收 者 是 困难 的 ， 避 免 接 收 
邻居 的 无 线 信号 也 是 困难 的 。 因 此 ， 在 无 线 链 路 中 介质 访问 控制 是 核心 问题 。 在 传输 无 线 
信号 时 ， 控 制 该 信号 的 接收 者 是 困难 的 ， 因 此 窃听 问题 也 必须 考虑 。 


它们 现在 在 哪 ? 

令 牌 环 网 S 

多 年 来 构建 局 域 网 一 直 有 两 种 主要 方式 : 以 太 网 和 令 牌 环 网 。 令 牌 环 网 是 由 IBM 提出 
的 ， 标 准 化 为 IEEE 802.5。 念 牌 环 网 与 以 太 网 有 许多 类 似 之 处 : 环 中 采用 共享 介质 ， 依 据 分 
布 式 算 法 决定 哪个 节点 何 时 能 够 传输 帧 ， 每 个 节点 都 能 够 看 到 其 他 所 有 节点 传输 的 分 组 。 

令 牌 环 网 和 以 太 网 最 大 的 区 别 是 拓扑 结构 。 以 太 网 是 总 线 型 拓扑 结构 ， 而 令 牌 环 网 是 
环 型 拓扑 结构 。 每 个 节点 都 连接 着 一 对 邻居 ， 一 个 上 游 节点 ， 一 个 下 游 节 点 。“ 令 牌 ”是 
一 个 特定 的 比特 序列 ， 它 在 环 中 循环 移动 ， 每 个 节点 接收 令 牌 然后 转发 。 当 一 个 有 帧 要 传 
输 的 节点 看 到 令 牌 时 ， 它 把 令 牌 从 环 上 取 下 ( 即 它 不 转发 这 个 特定 的 比特 模式 )， 而 将 自 
己 的 帧 插入 环 中 。 沿 路 的 每 个 节点 简单 地 转发 帧 ， 目 的 节点 保存 帧 的 副本 ， 然 后 将 消息 苇 
发 给 环 的 下 一 节点 。 当 帧 返回 到 发 送 方 时 ， 这 个 节点 将 帧 取 下 来 (而 不 是 继续 转发 它 )， 然 
后 再 插入 令 牌 。 以 这 种 方式 ， 某 个 下 游 节点 将 有 机 会 发 送 一 个 帧 。 介 质 访问 算法 是 公平 的 ， 
因为 令 牌 绕 着 环 循环 ， 每 个 节点 都 有 机 会 发 送 帧 。 令 牌 环 以 轮转 的 方式 为 节点 提供 服务 。 

过 去 几 十 年 中 出 现 了 许多 令 牌 环 网 的 变 体 ， 光 纤 分 布 式 数据 接口 (Fiber Distributed 
Data Interface，FDDI) 就 是 其 中 之 一 。 最 终 ， 令 牌 环 网 逐渐 被 以 太 网 淘汰 ， 尤其 是 随 着 
以 太 网 交换 技术 和 各 种 高 速 以 太 网 (100M 比特 和 100G 比特 以 太 网 ) 的 出 现 。 











无 线 网 络 技术 多 种 多 样 ， 每 种 技术 都 有 不 同 的 特点 。 对 不 同 技术 进行 分 类 的 简单 方法 
是 依据 它们 所 提供 的 数据 传输 速率 和 传输 距离 。 其 他 区 别 包 括 其 占用 的 电磁 频谱 (包括 是 
否 需要 沉默 期 ) 和 消耗 的 能 量 。 本 节 中 ,我 们 探讨 三 种 主要 的 无 线 技术 : WiFi ( 众 所 周 
MAY 802. 11)、 蓝 牙 以 及 蜂窝 无 线 标准 中 的 第 三 代 技 术 (3G)。 表 2-4 给 出 了 这 些 技术 的 
基本 情况 及 其 简单 对 比 。 


表 2-4 主流 无 线 技术 概览 
10m 100m 
2Mbps (共享 ) 54Mbps (共享 ) 
将 外 部 设备 连接 到 计算 机 | 将 计算 机 连接 到 有 线 接 人 点 
以 太 网 





Wi-Fi (802.11) 3G 蜂窝 


















数 十 公里 

数 百 kbps (每 连接 ) 
将 手机 连接 到 有 线 基 站 
DSL 


典型 链 路 长 度 
典型 数据 传输 速率 
典型 应 用 

有 线 技术 对 比 







































回想 在 1. 5 节 中 ， 带 宽 有 时 表示 以 赫 效 为 单位 的 频段 宽度 ， 有 时 表示 链 路 的 数据 传输 
速率 。 因 为 这 些 概 念 在 无 线 网 络 中 经 常 遇 到 ， 在 此 我 们 使 用 带宽 (bandwidth) 表示 其 本 
来 的 含义 ， 即 频段 的 宽度 ， 使 用 数据 传输 速率 (data rate) 表示 在 链 路 上 每 秒 能 够 发 送 的 
比特 数 ， 正 如 表 2-4 中 所 示 。 





O 参见 “实验 附录 A”. 
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由 于 所 有 无 线 链 路 共享 同一 链 路 ， 因 而 ， 它 的 挑战 在 于 有 效 地 共享 资源 ， 并 且 彼 此 不 
过 度 干扰 。 绝 大 多 数 无 线 链 路 是 通过 频率 和 空间 的 维度 划分 实现 共享 的 。 在 一 个 特定 地 区 
的 特定 频率 可 能 分 配给 一 个 特定 的 实体 ,例如 一 家 公司 。 由 于 信号 从 信号 源 出 发 经 过 一 定 
的 距离 后 将 减弱 (attenuate)， 因而 对 一 个 电磁 信号 所 帘 盖 的 区 域 面积 加 以 限制 是 可 行 的。 
降低 发 射 器 的 功率 即 可 缩小 信号 覆盖 的 范围 。 

无 线 信道 的 分 配 是 由 像 美国 联邦 通信 委员 会 (FCC) 这 样 的 政府 机 构 决 定 的 。 特 定 的 
频段 (频率 范围 ) 分 配 用 作 特 定 的 用 途 。 一 些 频段 留 作 政府 专用 ， 其 他 频段 用 作 AM 广 
播 、FM 广播、 电视、 卫星 通信 和 移动 电话 。 这 些 频段 的 特定 频率 允许 某 个 地 理 区 域 的 个 
体 组 织 使 用 。 最 后 有 几 个 频段 留 作 免 许可 之 用 不 需要 许可 。 

利用 免 许 可 频率 的 设备 仍然 受到 某 些 约束 ， 和 否则 它 就 是 无 约束 的 共享 网 络 了 。 一 个 重 
要 的 限制 是 传输 功率 . 这 样 便 限 制 了 信号 的 范围 ， 使 得 它 不 太 可 能 干扰 其 他 的 信号 。 例 
如 ,一 部 无 绳 电话 〈 免 许可 设备 ) 的 有 效 范 围 大 概 是 100 英尺 。 

当 频 谱 在 许多 设备 和 应 用 间 共 享 时 ， 一 种 解决 思路 是 利用 扩 频 (spread spectrum) 技 
AR. 扩 频 的 思想 是 在 比 正 党 范围 更 广 的 频段 上 传播 信号 ， 以 减 小 来 自 其 他 设备 的 影响 〈 扩 
频 最 初 用 于 军事 领域 ， 因 而 这 些 “ 其 他 设备 ”经 常 试图 干扰 信号 )。 例 如 ， 跳 频 Cfrequen- 
cy hopping) 是 一 种 以 随机 的 频率 序列 传输 信号 的 扩 频 技术 ， 它 的 机 制 是 首先 以 一 个 频率 
传输 信号 ， 接 着 以 第 二 个 频率 传输 ， 然 后 以 第 三 个 频率 ， 依 此 类 推 。 传 输 频率 的 序列 不 是 
真正 的 随机 ， 而 是 由 一 个 伪 随 机 数 生 成 器 计算 生成 的 。 接 收 方 利用 与 发 送 方 相同 的 算法 
( 且 以 相同 的 值 初始 化 )， 因 而 能 够 与 传输 者 的 频率 同步 以 便 正 确 地 接收 数据 帧 。 这 种 方式 
使 得 两 个 信号 利用 相同 频率 传输 信息 的 可 能 性 几乎 为 零 ， 从 而 减 小 了 干扰 。 

另外 一 种 扩 频 技术 称 为 直接 序列 (direct sequence), 为 更 好 地 抗 干 扰 而 增加 了 宛 余 。 每 
-个 数据 比特 在 信号 传输 中 由 多 个 比特 位 表示 ， 如 果 一 些 传输 的 比特 位 由 于 干扰 而 被 破坏 
了 ， 通 常 有 是 够 的 元 余 来 恢复 最 初 的 位 。 对 于 发 送 者 想 要 传输 的 每 一 位 比特 ， 实 际 上 发 送 的 
是 该 比特 和 nn 个 随机 比特 的 异 或 值 。 在 跳 频 技术 中 ， 随 机 比特 序列 是 由 发 送 者 和 接收 者 都 知 
道 的 伪 随 机 数 生成 恬 产 生 的 。 所 传输 的 值 是 一 个 n 比特 切片 编码 (rbit chipping code) ， 它 通 
过 1 倍 于 帧 所 需要 带宽 的 频带 传播 信和 号。 图 2-27 给 出 了 一 个 4 比特 切片 序列 的 示例 。 








1 | | | 

0) | | _ | 数据 源 : 1010 

1 | [ | [ ] f | m 

o | | F y pot Ld |_| 4 随机 序列 ; 0100 1011 0101 1001 
1| | | | bh | | 

ol LJ | Li Ld 44 二 者 异 或 : 1011 1011 1010 1001 


图 2-27 4 比特 切片 序列 实例 


电磁 频谱 的 不 同 部 分 具有 不 同 的 属性 ， 这 样 使 得 其 中 一 些 适合 通信 ， 另 一 些 则 不 适 
合 。 例如， 一 些 频谱 能 穿 透 建筑 物 而 有 些 则 不 能 。 政 府 仅 控制 基本 通信 部 分 ， 无 线 电 和 微 
波 范围 。 随 着 对 基本 频谱 需求 的 增加 ， 当 模拟 电视 逐渐 被 数字 电视 淘汰 时 ， 人 们 开始 关注 
一 些 重新 成 为 可 用 资源 的 频谱 ,9 





日 ”由 于 视频 编码 和 调制 技术 的 发 展 ， 在 数字 视频 传 答 中 ， 每 个 电视 频道 所 需 的 频谱 减少 了 。 
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当今 的 无 线 网 络 中 有 两 种 不 同类 型 的 端 节 点 。 一 种 端 节点 称 为 基站 Chase station). 
通常 不 移动 ， 但 有 线路 〈 至 少 高 带宽 ) 连接 到 因特网 或 者 其 他 网 络 ， 如 图 2-28 所 示 。 在 
链 路 男 一 端的 节点 (在 此 表现 为 客户 节点 ) 通常 是 移动 的 ， 并且 依靠 与 基站 的 连接 实现 与 
其 他 节点 的 通信 。 


客户 节点 
Se 有 线 网 络 
基站 
关键 
客户 节点 
两 个 节点 之 间 


| 的 无 线 “ 链 路 


图 2-28 利用 基站 的 无 线 网 络 


在 图 2-28 中 ,利用 一 对 波浪 线 表示 在 两 个 设备 间 ( 即 在 基站 和 一 个 客户 节点 之 间 ) 
提供 的 无 线 “ 链 路 ”"。 无 线 通 信 的 一 个 有 趣 的 特点 是 它 自然 支持 点 到 多 点 的 通信 .这 是 因 
为 由 一 个 设备 发 送 的 无 线 电 波 能 够 同时 被 多 个 设备 收 到 。 然 而， 为 高 层 协议 创建 一 个 点 到 
点 的 链 路 通常 是 有 用 的 ， 我 们 将 在 本 节 后 面 看 到 它 的 运作 实例 。 

注意 在 图 2-28 中 ， 非 基站 (客户 ) 节点 之 间 的 通信 和 是 通过 基站 进行 路 由 的 。 尽 管 由 
一 个 客户 节点 发 出 的 无 线 电 波 可 能 会 被 其 他 的 客户 节点 收 到 ,但 是 普通 的 基站 模型 不 允许 
客户 节点 之 间 的 直接 通信 。 

这 种 拓扑 包含 有 三 种 不 同 级 别 的 移动 性 。 第 一 级 是 不 移动 这 种 情况 下 接收 方 必须 在 
一 个 固定 位 置 接 收 来 自 基站 的 定向 传输 。 第 二 级 是 在 基站 的 范围 内 移动 ， 对 应 的 实例 是 蓝 
牙 技术 。 第 三 级 是 基站 之 间 的 移动 ， 蜂 窜 电 话 和 Wi-Fi 是 对 应 的 实例 。 

另 一 种 引 人 注 目的 无 线 网 络 拓扑 是 网 格 (mesh) 或 自 组 织 (ad hoc) 网 络 。 在 无 线 
网 格 中 ， 节 点 是 对 等 的 ( 即 没 有 特别 的 基站 节点 )。 只 要 每 个 节点 在 前 面 节点 的 范围 之 
内 ， 消 息 就 可 以 由 对 等 节点 组 成 的 链 向 前 发 送 。 这 种 情形 可 由 图 2-29 说 明 。 这 样 便 允 
许 网 络 的 无 线 部 分 延伸 到 一 个 发 射 器 限制 的 范围 之 外 。 从 技术 之 间 竞 争 的 角度 ， 这 样 使 
得 较 短 距离 的 无 线 网 络 通信 技术 得 以 延伸 并 可 与 较 长 距离 的 技术 抗衡 。 网 格 还 提供 容错 
机 制 ， 这 是 通过 提供 获取 从 点 A 到 点 B 消息 传输 的 多 种 路 由 实现 的 。 网 格 能 够 不 断 扩 
展 ， 费 用 也 随 之 不 断 增 加 。 另 一 方面 ， 网 格 需 要 的 非 基 站 节点 的 硬件 和 软件 设计 实现 者 
具有 一 定 的 复杂 性 ， 洪 在 地 增加 了 单位 成 本 以 及 电力 消耗 ， 这 是 电池 设备 要 考虑 的 重要 
内 容 。 无 线 网 格 网 络 具 有 较 强 的 理论 研究 价值 〈 参 见 参考 文献 中 的 相关 内 容 )， 但 是 与 
基站 网 络 相 比 ， 它 们 依然 很 不 成 熟 。 无 线 传 感 器 网 络 是 另 一 种 热门 的 无 线 技 术 ， 它 通常 
可 形成 无 线 网 格 。 
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移动 节点 
移动 
节点 
无 线 传输 
移动 节点 
移动 节点 ns 
移动 节点 


图 2-29 ”无线 自 组 织 网 络 或 网 格 网 络 


现在 我 们 已 经 简单 介 - 些 常见 的 无 线 技术 ， 下 面 我 们 进一步 介绍 这 些 无 线 技术 的 


2.7.1 802.11/Wi-Fi 


大 部 分 读者 都 使 用 过 基于 IEEE 802.11 标准 的 无 线 网 络 ， 通 常 称 为 Wi-FiS 。WirFi 
在 技术 上 是 一 个 商标 ， 由 一 个 名 为 Wi-Fi 联盟 的 商业 组 织 拥 有 ， 确 保 其 产品 符合 802. 11 
标准 。 类 似 于 以 太 网 ，802. 11 用 于 有 限 的 地 理 范 围 (家 庭 、 办 公 室 、 校 园 )， 它 的 主要 挑 
战 是 对 共享 通信 介质 的 协调 访问 在 此 情况 下 ， 信 和 号 通过 空间 传播 。 

1. 物理 属性 

802. 11 定义 了 许多 不 同 的 物理 层 ， 其 频段 不 同 ， 提 供 的 数据 传输 速率 也 不 同 ， 截 至 
目前 ，802. 11n 提供 的 数据 传输 速率 最 高 ， 可 达 600Mbps。 

最 初 的 802. 11 标准 定义 了 两 个 基于 无 线 电 的 物理 层 标准 ， 一 个 利用 跳 频 (在 79 个 
1MHz 宽 的 频带 上 )， 另 一 个 利用 直接 序列 〈 使 用 一 个 11 比特 的 切片 序列 )。 两 者 都 提供 
T 2Mbps 的 速率 。 后 来 又 补充 了 物理 层 标 准 802. 11b。 利 用 不 同 的 直接 序列 ，802. 11 可 
提供 最 高 11Mbps 的 速率 。 这 三 个 标准 运行 在 电磁 波谱 2.4GHz 的 免 许 可 频带 。 接 着 又 制 

了 802.11a 标准 ， 利 用 正 交 频 分 多 路 复 用 (Orthogonal Frequency Division Multiple- 
xing, OFDM) 一 一 FDM 的 一 种 ， 可 使 发 送 速率 达到 54Mbps。802. lla 运行 在 5GHz 的 
免 许可 频段 。 一 方面 ， 该 频段 使 用 较 少 ， 因 此 干扰 也 较 少 。 另 一 方面 ， 很 多 信号 被 吸收 
了 ， 且 几乎 都 被 限制 在 视线 之 内 。 接 下 来 是 802. 11g，802. 11g 也 使 用 OFDM， 传 输 速率 
可 达到 54Mbps， 它 向 后 兼容 802. 11b (可 用 2. 4G Hz 频带 ) 。 

最 新 的 标准 是 2009 年 提出 的 802. 11n (尽管 先前 的 标准 产品 已 经 存在 ) 802. 11n 使 
用 多 路 天 线 ， 人 允许 更 大 的 无 线 信 道 带 帘 ， 尽 最 大 可 能 提高 了 数据 传输 速率 。 多 路 天 线 的 使 


S 类比 于 HiFi (High Fidelity, PID. WiFi 是 意 为 “无 线 保 真 "， 还 是 仅 为 一 个 除 802. 11 外 别 无 所 指 的 好 
记 的 和 名字， 对 此 人 们 尚 存 争议 
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用 通常 称 为 MIMO， 用 于 多 路 输入 输出 。 

对 于 商业 产品 来 说 支持 多 种 802. 11 标准 是 必要 的 ， 一些 上 大 站 支持 所 有 内 种 标准 Ca, 
b、g 和 n)。 这 不 仅 保 证 了 支持 任 一 标准 的 设备 的 兼容 性 ， 而 且 使 得 在 特定 环境 中 两 个 产 
品 可 以 选择 其 最 高 的 带宽 ，。 

值得 注意 的 是 ， 所 有 802. 11 标准 都 定义 了 其 能 够 支持 的 最 大 比特 传输 率 ， 它们 在 低 
比特 率 时 工作 得 更 好 ， 例如， 802.1la 支持 的 比特 率 为 6Mbps、9Mbps、12Mbps、 
18Mbps, 24Mbps, 36Mbps, 48Mbps 和 54Mbps， 在 低 比特 率 时 ， 它 更 容易 对 受 品 声 干 
扰 的 传输 信号 进行 解码 。 为 了 实现 不 同 的 比特 率 ， 需 要 用 到 不 同 的 调制 方法 ， 此外， 用 于 
差错 纠正 编码 的 元 余 信息 的 数量 也 是 不 同 的 (参见 2. 4 节 中 关于 差错 检测 码 的 介绍 )。 高 
元 余 信息 意味 着 低 有 效 数据 传输 效率 (因为 有 更 多 的 传输 比特 是 元 余 的 ). 

系统 希望 在 噪声 环境 下 获得 更 优 的 比特 传输 速率 ， 比 特 率 选择 算法 可 能 很 复杂 (在 
“扩展 阅读 ”一 节 中 有 个 例子 )。 有 趣 的 是 ，802. 11 标准 没有 制定 特定 的 方法 ， 这些 算法 
可 以 由 供应 商 提供 。 选 择 比 特 率 的 基本 方法 是 通过 直接 在 物理 层 测量 信 品 比 (SNR) 来 测 
试 误 比特 率 ， 或 者 通过 度量 分 组 被 成 功 传输 和 确认 的 频率 来 测量 SNR. 在 有 些 方法 中 . 
发 送 方 会 通过 高 比特 率 发 送 一 个 或 多 个 分 组 ， 看 其 是 否 成 功 ， 据 此 探测 比特 率 . 

2. 冲突 避免 

乍 一 看 ， 无 线 网 协议 好 像 恰 好 遵循 与 以 太 网 相同 的 算法 〈 等 到 链 路 成 为 空闲 后 再 传 
输 ， 并 且 如 果 发 生 冲 突 则 退 避 )。 粗 略 地 说 ， 这 正好 是 802. 11 所 做 的 。 然而， 与 无 线 网 络 
不 同 ， 以 太 网 中 的 节点 在 接收 其 他 节点 的 传输 时 ， 能 够 同时 发 送 数 据 ， 而 无 线 网 络 中 的 节 
点 不 具备 该 特性 ， 这 使 得 在 无 线 网 络 中 的 冲突 检测 非常 复杂 。 无 线 网 络 中 节点 通常 不 能 司 
时 收发 数据 (以 同样 的 频率 )， 传 输 器 的 能 量 通 常 高 于 接收 信号 .一 个 无 线 节点 可 能 因为 
太 远 而 不 能 接收 其 他 节点 的 传输 ， 这 种 情况 相当 复杂 ， 下 面 将 进行 详细 描述 。 

考虑 图 2-30 所 示 的 情况 ， 其 中 A AC 都 在 B 的 有 效 范 围 内 . 但 是 A 与 C 彼此 间 不 能 
直接 通信 。 假 设 A 和 C 都 想 与 也 进行 通信 ， 因 此 都 向 也 发 送 一 个 帧 . A 和 C 都 察觉 不 到 
对 方 ， 因 为 它们 的 信号 不 能 传送 那么 远 。 这 两 个 帧 在 B 处 互相 冲突 ， 但 与 以 太 网 不 同 ，A 
和 C 都 不 知道 这 一 冲突 。 此 时 A 和 C 分 别称 为 对 方 的 隐藏 节点 (hidden node), 

一 个 相关 的 问题 称 为 暴露 节点 问题 (exposed node problem). 在 图 2-31 所 示 的 情况 
下 发 生 ， 其 中 4 个 节点 中 的 每 个 节点 都 能 发 送 和 接收 信号 ， 这 些 信 号 只 能 到 达 紧 靠 它 左右 的 





图 2-30 ”隐藏 节点 问题 。 虽 然 A 和 CC 图 2-31 暴露 节点 问题 。 虽 然 B 和 (CC 的 信号 
相互 隐藏 ， 但 它们 的 信号 可 能 在 B 处 彼此 暴露 , (A BY A RG CHD 发 送 


冲突 CB 的 到 达 未 显示 ) 不 会 互相 干扰 CA AID 的 到 达 未 显示 ) 
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节点 。 例 如 ，B 能 够 与 A 和 C 交换 帧 ,但 不 能 到 达 D， 而 C 能 够 到 达 BA D 但 不 能 到 达 
A。 假 设 B 向 A 发 送 数 据 ， 节 点 C 察觉 到 这 一 通信 ， 因 为 它 侦 听 到 了 B 的 传输 。 如 果 C 
只 是 因为 听 到 也 的 传输 就 断定 它 不 能 向 任何 节点 传输 ， 这 将 是 错误 的 。 例 如 ， 假设 C Fir 
向 节点 DD 传输 数据 ， 因 为 C 向 D 传输 不 会 干扰 A 从 了 接收， 所 以 这 不 成 问题 。( 它 将 干扰 
A 向 了 发送 ， 但 在 本 例 中 也 正在 发 数据 .) 

802. 11 使 用 CSMA/CA 解决 这 两 个 问题 ， 这 里 CA 表示 冲突 避免 (avoidance)， 不 同 
于 以 太 网 CSMA/CD 中 的 冲突 检测 〈detection) 。 且 体 原 理 下 面 将 进行 介绍 。 

载波 监听 看 起 来 似乎 很 简单 : 在 发 送 分 组 前 ， 监 听信 道中 是 否 有 信号 在 传输 ， 如 果 没 
有 就 发 送 。 然 而 ， 因 为 隐藏 终端 问题 ， 仅仅 没有 监听 到 其 他 节点 的 信号 并 不 能 保证 在 接收 
端 不 会 发 生 冲 突 。 因 此 . 在 CSMA/CA 中 需要 接收 方 给 发 送 方 明 确 发 送 一 个 ACK。 如 果 
分 组 被 成 功 解码 并 通过 了 CRC 校 验 ， 则 接收 方 给 发 送 方 发 送 一 个 ACK. 

需要 注意 的 是 如 果 冲 突 发 生 了 ,整个 分 组 将 变 得 无 效 。 因 此 ，802. 11 增加 了 称 为 
RTS-CTS (请 求 发 送 -清除 发 送 ) 的 机 制 。 这 可 以 在 一 定 程度 上 解决 隐藏 终端 问题 。 发 送 
方 给 期 望 的 接收 方 发 送 一 个 短 分 组 RTS， 如 果 分 组 被 成 功 接收 ， 接 收 方 会 通过 一 个 短 帧 
CTS 进行 响应 。 即 使 RTS 没有 被 隐藏 终端 听 到 ，CTS 也 会 被 它 听 到 。 这 会 告诉 在 接收 方 
信号 范围 内 的 节点 在 一 段 时 间 内 不 能 发 送 分 组 ， 期 望 传输 的 时 间 长 短 包 含 在 RTS 和 CTS 
分 组 中 。 该 期 望 时 间 到 达 后 ， 经 过 一 个 小 的 时 际 ， 信 道 就 变 为 可 用 ,其 他 节点 可 以 尝试 
发 送 。 

当然 ， 如 果 两 个 节点 同时 检测 到 一 个 空闲 链 路 并 试图 发 送 一 个 RTS ti, 那么 它们 的 
RTS 帧 将 彼此 冲突 。 当 发 送 方 在 一 段 时 间 之 后 没有 收 到 CTS 帧 时 ， 它 就 知道 发 生 了 冲突 、 
在 这 种 情况 下 ， 它 们 都 等 待 一 段 随机 时 间 后 再 试 。 一 个 给 定 节点 延迟 的 时 间 是 由 用 在 以 太 
网 上 的 相同 的 指数 退 避 算法 定义 的 〈 见 2.6.2 节 )。 

在 一 次 成 功 的 RTS-CTS 交换 后 ， 发 送 方 发 送 其 数据 分 组 ， 发 送 完 后 接收 该 分 组 的 
ACK, WMA ACK 超时 ， 发 送 方 使 用 上 述 方法 试图 再 次 请 求 信道 。 当 然 ， 这 时 其 他 节点 可 
能 也 会 试图 访问 信道 。 

3. 分 布 式 系统 

如 上 所 述 ，802. 11 适合 网 格 〈 自 组 织 ) 的 网 络 拓扑 ， 针 对 网 格 网 络 的 802. 11s 标准 即 
将 完成 。 然 而 ， 当 前 几乎 所 有 802.11 网 络 都 使 用 面向 基站 的 拓扑 。 

网 络 中 所 有 节点 并 不 是 完全 相同 的 ， 有 些 节 点 允许 移动 (例如 便携 式 电脑 )， 有 些 节 
点 连接 到 有 线 网 络 基 础 设施 上 。802. 11 称 这 些 基站 为 接 入 点 (Access Point, AP), Jf A 
它们 是 通过 一 个 所 谓 的 分 布 式 系 统 (distribution system) 彼此 连接 的 。 图 2- 32 给 出 一 个 
连接 三 个 接 入 点 的 分 布 式 系统 ， 每 个 接 入 点 为 某 一 区 域 的 节点 服务 。 每 个 接 入 点 在 其 适当 
频率 范围 的 信道 上 工作 ， 并 采用 与 它 的 邻居 不 同 的 信道 。 

分 布 式 系统 的 细节 在 这 个 讨论 中 并 不 重要 ， 例 如 ， 它 可 能 是 一 个 以 太 网 。 唯 一 重要 的 
是 分 布 式 网 络 运行 在 链 路 层 ， 即 它 与 无 线 链 路 在 同一 个 协议 层 运行 ， 换 言 之 ， 它 不 依赖 于 
任何 高 层 协议 〈 如 网 络 层 ) 。 


如 果 两 个 节点 彼此 可 达 ， 它 们 就 能 够 直接 通信 ， 但 这 种 配置 的 思想 是 ， 每 个 节点 与 各 
目的 一 个 接 入 点 相 联 系 。 例 如 ， 对 于 节点 A 与 节点 下 通信 ，A 首先 向 它 的 接 人 点 CAP-1) 


发 送 一 个 帧 ， 接 人 点 通过 分 布 式 系统 向 AP-3 转发 这 一 帧 ， 最 后 AP-3 向 玉 发 送 该 帧 。 
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分 布 式 系统 





SS a D wo 人 E . 


eps 


图 2-32 接 入 点 连接 到 分 布 式 系统 


AP-1 如 何 知道 向 AP-3 发 送 消息 超出 了 802. 11 的 范围 ， 它 可 以 使 用 下 一 音 (3.1.4 要 
述 的 桥接 协议 。802. 11 详细 说 明了 节点 如 何 选择 接 人 点 ， 更 有 趣 的 是 当 节点 从 一 个 区 域 
移动 到 另 一 个 区 域 时 该 算法 如 何 工 作 。 

选择 AP 的 技术 称 为 扫描 (seanning)， 它 包含 以 下 四 步 : 

1) 节点 发 送 一 个 Probe ti, 

2) 所 有 可 达 的 AP 用 一 个 Probe Response 帧 应 答 。 

3) 节点 从 中 选择 一 个 AP， 并 向 那个 AP 发 送 一 个 Association Request fii. 

4) AP 用 一 个 Association Response 帧 应 答 。 

无 论 何 时 ， 当 一 个 节点 加 入 网 络 或 者 对 当前 AP 不 满意 时 ， 它 就 会 用 到 这 个 协议 。 例 
如 ， 当 前 AP 的 信号 由 于 节点 远离 而 变 弱 时 就 会 发 生 这 种 情况 。 一 个 节点 无 论 何 时 获得 一 
个 新 的 AP， 这 个 新 的 AP 就 通过 分 布 式 系 统 将 变化 通知 给 它 的 旧 AP“〈 在 步骤 4) PRE), 

考虑 图 2-33 所 示 的 情况 ， 其 中 节点 C 从 AP-1 服务 的 区 域 移动 到 AP-2 服务 的 区 域 。 
在 移动 时 它 发 送 Probe ti, AW BK AF AP-2 的 Probe Response 帧 。 在 某 一 点 上 ，C 
宁愿 选择 AP-2 而 不 是 AP-1， 因 此 它 将 自己 与 AP-2 的 接 入 点 联系 起 来 。 





N S p 
图 2-33 节点 的 移动 性 


刚刚 描述 的 机 制 称 为 主动 扫描 (active scanning)， 因 为 节点 在 主动 搜索 接 入 点 。AP 
会 定期 发 送 一 个 通知 AP 能 力 的 Beacon 帧 ， 其 中 包括 AP 支持 的 传输 率 ， 这 样 的 情况 称 为 
被 动 扫描 (passive scanning): 一 个 节点 可 以 根据 Beacon 帧 ， 只 通过 向 接 入 点 发 回 一 个 
Association Request 帧 而 关联 到 AP, 
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4. 帧 格式 

大 部 分 802. 11 帧 格式 如 图 2-34 所 示 。 这 种 帧 包含 源 节点 地 址 和 目的 节点 地 址 (长度 
都 是 48 比特 ) .最 多 2 312 字 节 数据 ， 以 及 一 个 32 比特 的 CRC. Control (控制 ) 字段 包 
含 三 个 重要 的 子 字 段 (未 显示 ): 一 个 6 比特 的 Type (类 型 ) 字段 ， 指 明 帧 携带 的 数据 是 
一 个 RTS 帧 或 CTS 帧 ， 还 是 由 扫描 算法 使 用 ; 两 个 1 比特 的 字段 〈 称 为 ToDS 和 
FromDS) 将 在 下 面 描述 ， 


16 16 48 48 48 16 48 0-18,496 32 


| | | ln) an, A 
o 控制 ”持续 时 间 ， Addr1 Addr2 Addr3 ，SeqCtl | Addr4 | 有 效 载荷 7 | CRC | 
图 2-34 802. 11 帧 格式 


802. 11 帧 格式 独 具 特 色 之 处 是 它 包 含 四 个 地 址 而 不 是 两 个 地 址 。 如 何 解释 这 些 地 址 
取决 于 帧 的 Control 字段 中 ToDS 位 和 FromDS 位 的 设置 。 考 虑 到 帧 必须 通过 分 布 式 系统 
转发 的 可 能 性 ， 这 意味 着 原来 的 发 送 方 不 一 定 与 最 近 的 传输 节点 相同 。 同 样 也 可 以 这 样 考 
虚 目 的 地 址 。 在 最 简单 的 情况 下 ， 当 一 个 节点 直接 向 男 一 个 节点 发 送 数 据 时 ， 两 个 DS 位 
部 设 为 0。Addrl 标识 目的 节点 ，Addr2 标识 源 节 点 。 在 最 复杂 的 情况 下 ， 两 个 DS 位 都 
设置 为 1， 表明 消息 从 一 个 无 线 节 点 进入 一 个 分 布 式 系统 ， 然 后 从 分 布 式 系统 到 达 另 一 个 
AW. WA DS (ABE Lit. Addr] 标识 最 终 目 的 站 ，Addr2 标识 直接 发 送 方 (从 
分 布 式 系统 向 最 终 目的 站 转发 帧 的 节点 )，Addr3 标识 中 间 目 的 站 〈 从 无 线 节点 接收 帧 并 
通过 分 布 式 系统 将 其 转发 的 节点 )，Addr4 标识 最 初 的 源 节点 。 在 图 2-32 给 出 的 例子 中 ， 
Addrl 对 应 于 下 ，Addr2 标识 AP-3. Addr3 对 应 于 AP-1. 而 Addr4 标识 A., 


2.7.2 蓝牙 (802. 15. 1) 


监 牙 技术 填充 了 移动 电话 、PDA、 笔 记 本 电脑 以 及 其 他 个 人 或 外 围 设备 之 间 的 短 距 离 
通信 的 颖 际 。 例 如 ， 蓝 牙 技 术 可 用 于 连接 移动 电话 和 耳机 . 笔记 本 电脑 和 耳机 。 概 略 地 
齐 ， 蓝 牙 是 利用 电线 连接 两 个 设备 的 一 种 更 为 方便 的 替代 。 在 这 种 应 用 中 不必 提 供 很 大 
的 范围 或 章 宽 。 这 对 于 由 电池 供电 的 设备 很 有 利 ， 其 中 很 重要 的 原因 是 耗 电 不 多 。 这 样 就 
能 够 满足 蓝牙 的 应 用 目的 ， 多数 蓝 牙 设备 电池 能 量 有 限 (例如 无 处 不 在 的 电话 耳机 )、 因 
此 耗 电 少 是 非常 重要 的 。# . 

监 牙 运行 在 2.45GHz 的 免 许 可 频段 ， 其 链 路 典型 带宽 是 1 一 3Mbps， 有 效 范 围 大 约 
10m。 正 因 如 此 ， 加 之 通信 设备 通常 属于 个 人 或 一 个 组 织 ， 因 此 蓝牙 有 时 被 归 类 为 个 人 区 
域 网 络 (Personal Area Network, PAN), 

有 一 个 称 为 蓝牙 专业 因特网 组 织 (Bluetooth Special Znternet Group) 的 工业 联盟 为 
蓝牙 制定 相关 标准 。 它 为 一 系列 应 用 程序 制定 了 一 套 完整 的 协议 ， 超 出 了 链 路 层 对 应 用 协 
议 的 定义 ， 称 为 针对 应 用 的 应 用 协议 轮 廊 (profile)。 例 如 ， 用 于 同步 PDA 和 个 人 计算 机 
的 应 用 协议 轮廓 。 就 802. 11 而 论 ， 另 一 个 应 用 协议 轮廓 为 移动 计算 机 提供 对 有 线 LAN 的 
访问 ， 尽 管 这 不 是 蓝牙 的 最 初 目 的 。IEEE 802. 15. 1 标准 建立 在 蓝牙 的 基础 上 ， 但 是 它 不 
包含 应 用 协议 。 





与 ” 谁 真 的 想 在 卫 朱 里 放 一 个 高 能 基 的 无 线 电 年 机 呢 ? 
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最 基本 的 蓝牙 网 络 配置 称 为 皮 可 网 (piconet) ， 由 一 个 主 设备 和 ?7 AARAA. A 
图 2-35 所 示 。 所 有 通信 都 发 生 在 主 设 备 和 从 设备 之 间 ， 从 设备 彼此 之 间 不 直接 通信 由 
于 从 设备 作用 简单 ， 因 而 它们 的 蓝牙 硬件 和 软件 简单 且 价 格 低廉 


从 设备 


|} (PERE) 
a! 

从 设备 | 从 设备 
(活动 ) =! (活动 ) 
“wg ed 

主 设备 
j x 
= F £ ; 
从 设备 (aah) 
( 停 置 ) - 
从 设备 
(活动 ) 


由 于 蓝牙 在 一 段 免 许可 的 频段 上 运行 ， 所 以 它 需 要 利用 一 种 扩 频 技术 〈 见 本 节 前 面 的 人 氢 
述 ) 来 处 理 频 率 段 中 可 能 的 干扰 。 它 利用 79 个 信道 (channel) (频率 ) 的 跳 频 ,每 个 每 次 使 
用 625us。 这 为 蓝牙 利用 同步 时 分 多 路 复 用 提供 了 一 个 自然 的 时 间 片 。 传 输 一 帧 占用 1、3 或 
5 个 连续 的 时 间 片 。 只 有 主 设备 可 以 在 奇数 时 间 片 开始 传输 。 从 设备 可 以 在 偶数 时 间 片 开始 
传输 ， 但 仅 回 应 在 先前 时 间 片 中 主 设备 的 请 求 ， 因 此 不 允许 在 从 设备 之 间 进 行 连接 。 

从 设备 可 以 被 停 置 (parked): 设置 其 为 不 活动 、 低 电量 状态 。 停 置 设备 不 能 与 皮 可 网 通 
， 它 只 能 通过 主 设备 激活 。 除 了 活动 从 设备 之 外 ， 一 个 皮 可 网 还 可 有 255 MEE. 
除了 蓝牙 之 外 ， 在 低 功 耗 短 距离 通信 和 领域 还 有 一 些 其 他 技术 ， 其 中 之 一 就 是 ZigBee. 
它 由 ZigBee 联盟 设计 并 被 标准 化 为 IEEE 802. 15.4. ZigBee 用 于 带宽 需求 较 少 和 耗 电 很 低 
以 使 电池 使 用 时 间 较 长 的 情况 。 它 的 设计 宗旨 是 比 蓝 牙 简单 和 便宜 . 其 经 济 性 使 其 适合 于 
廉价 设备 ， 例 如 传感器 。 传 感 器 是 一 种 越 来 越 重要 的 网 络 设备 ,这 些 廉价 的 小 设备 可 以 大 
量 部 署 ， 用 于 监控 温度 、 湿 度 以 及 建筑 物 中 的 能 耗 。 


2.7.3 蜂窝 电话 技术 

蜂窝 电话 技术 起 源 于 声音 通信 ， 基 于 蜂窝 标准 的 数据 服务 正在 变 得 越 来 越 流 行 〈 这 得 
益 于 移动 电话 和 智能 手机 (smartphone) 的 快速 增长 )。 其 缺点 之 一 是 用 户 的 使 用 成 本 高 ， 
某 些 原 因 是 蜂窝 使 用 许可 的 频谱 (在 若干 年 前 被 蜂窝 电话 运营 商 以 天 文 价格 关 断 )， 用 于 
蜂窝 电话 (现在 是 用 于 蜂窝 数据 ) 的 频段 在 世界 各 地 是 不 同 的 。 例 如 ， 在 欧洲 ， 用 于 蜂窝 
电话 的 主要 频段 是 900MHz 和 1 800MHz， 在 北美 使 用 850MHz 和 1 900MHz 的 频段 


aif 
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这 种 在 频谱 利用 上 的 全 球 不 一 致 性 给 那些 周游 世界 的 用 户 带 来 了 一 些 问 题 ， 并 为 能 在 多 种 
频率 上 运行 的 手机 创造 了 市 场 ( 例 如， 一 个 三 频段 手机 能 在 上 面 提 到 的 四 种 频段 中 的 三 种 
频段 上 通信 )。 然 而 ,与 不 断 增多 的 一 直 折 磨 着 蜂窝 通信 业务 的 不 相 容 标准 相 比 ， 该 问题 
则 略 显 苍白 。 直 到 最 近 ， 才 出 现 了 一 些 在 少量 标准 集 上 的 集中 迹象 。 最 后 的 问题 是 ， 绝 大 
多 数 蜂 窒 技术 是 设计 用 于 声音 通信 的 ， 直 至 现在 才 开 始 适 当地 支持 高 带宽 数据 通信 。 

像 802.11 和 WiMAX 一 样 ， 蜂 窜 技 术 依 赖 对 基站 的 使 用 ， 基 站 是 有 线 网 络 的 一 部 分 。 
由 一 个 基站 天 线 负责 的 地 理 区 域 称 为 一 个 蜂窝 (cell)。 一 个 基站 可 以 为 一 个 蜂窝 服务 ,或 
利用 多 个 方向 上 的 天 线 为 多 个 蜂窝 服务 。 蜂 窝 没有 明确 的 边界 ,它们 彼此 重合 。 在 重合 之 
处 ,一 部 移动 电话 可 以 与 多 个 基站 通信 。 这 一 点 与 图 2-43 表示 的 802.11 有 些 相 像 。 然 
而 ,在 任意 时 刻 , 一 部 电话 仅 能 与 一 个 基站 通信 ， 且 受 控 于 该 基站 。 当 移动 电话 离开 一 个 
蜂窝 时 ， 它 移动 到 由 一 个 或 多 个 蜂窝 重 每 的 区 域 。 当 前 的 基站 感觉 到 该 电话 的 信号 变 弱 ， 
将 对 该 电话 的 控制 交 给 收 到 最 强 信 号 的 基站 。 如 果 此 时 该 电话 有 一 个 呼叫 ， 该 呼叫 必须 由 
新 基站 传递 ， 这 称 为 切换 (handoff) 。 

如 上 所 述 ， 蜂 窝 通信 没有 唯一 的 标准 ， 而 是 以 不 同 的 方式 、 不 同 的 传输 速度 支持 数据 
通信 的 竞争 技术 集合 。 这 些 技 术 被 松散 的 划分 为 代 (generation), %—f{K (1G) 是 模拟 
的 ， 因 而 数据 通信 能力 有 限 。 第 二 代 标 准 转向 数字 通信 ， 提 供 无 线 数据 服务 ， 而 第 三 代 
(3G) 标准 支持 高 带宽 并 同时 支持 声音 和 数据 传输 。 目 前 大 部 分 移动 电话 网 络 文 持 3G， 并 
H 4G 也 开始 出 现 。 由 于 每 一 代 都 拥有 自己 的 标准 和 技术 ， 因 此 对 于 一 个 特定 的 网 络 是 属 
于 3G 还 是 其 他 经 常会 有 争议 〈 基 于 市 场 原因 ) 。 

第 三 代 3G) 蜂窝 通信 的 概念 在 3G 技术 实现 之 前 就 已 经 建立 ， 旨 在 制定 将 提供 高 于 
2G 的 数据 带宽 的 单一 国际 标准 。 不 幸 的 是 ， 单 一 的 标准 并 没有 实现 ， 这 种 趋势 似乎 可 能 
要 延续 到 4G。 然 而 有 趣 的 是 ， 大 部 分 3G 标准 都 基于 CDMA 〈 码 分 多 路 复 用 ) 的 变 体 。 

CDMA 使 用 一 种 扩 频 技术 使 来 自 多 个 设备 的 流量 共享 信道 ， 每 个 发 送 方 使 用 一 个 和 
数据 传输 速率 相关 的 码 片 速率 发 送 数 据 ， 每 个 发 送 方 的 码 片 速率 对 于 接收 方 来 说 是 已 知 
的 ， 例 如 ， 每 个 蜂窝 网 络 中 的 基站 会 给 当前 与 其 关联 的 每 个 移动 设备 分 配 唯 一 的 码 片 速 
紊 。 当 大 量 设备 在 同样 的 蜂窝 频段 中 广播 其 信号 时 ， 所 有 传输 看 起 来 是 互相 混 清 的 。 然 
而 ， 知 道 给 定 发 送 方 码 片 速率 的 接收 方 能 够 从 混 清 的 信号 中 提取 出 它 需 要 的 数据 。 

相对 于 其 他 多 路 复 用 技术 ，CDMA 在 针对 突 发 数据 方面 有 一 些 优势 。 它 对 于 多 少 用 
户 可 以 共享 一 个 频段 没有 限制 ， 只 要 确保 它们 都 有 唯一 的 码 片 速率 即 可 。 然 而 误 比 特 率 会 
随 着 并 发 发 送 的 增加 而 增加 ， 这 使 得 它 特 别 适合 于 有 大 量 用 户 但 是 在 某 段 时 间 内 其 中 的 大 
部 分 用 户 都 不 使 用 网 络 的 情况 ， 这 种 情况 对 于 许多 数据 应 用 都 是 成 立 的 ， 例 如 Web 冲浪。 





实际 系统 中 ， 许 多 移动 用 户 同 时 发 送信 息 的 情况 并 不 多 见 ， 所 以 CDMA 相对 于 TDMA 这 
样 的 多 路 复 用 技术 来 说 具有 和 较 好 的 效率 (例如 ， 它 能 接近 香农 定理 的 理论 上 限 值 )。 

相关 主题 

无 线 网 络 的 跨 层 问 题 


近 几 年 引起 研究 界 巨 大 关注 的 无 线 网 络 的 一 个 有 趣 的 方面 是 其 对 分 层 协 议 体系 结构 形 
成 了 挑战 。 例 如 ，802. 11 标准 能 够 建立 链 路 抽象 ， 以 点 到 点 的 方式 把 一 个 节点 连接 到 另 
一 个 节点 ， 因 此 ， 任 何 高 层 协 议 都 可 以 把 它 看 作 是 点 到 点 链 路 ， 但 这 是 正确 的 方法 吗 ? 

例如 ， 考 虑 三 个 节点 A、B、C 像 图 2-30 所 示 那 样 排 成 一 行 的 情况 ， 如 果 想 要 从 A 到 
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C 获取 一 个 分 组 ， 常 规 的 方法 是 A 发 送 分 组 到 BB，B 再 发 送 分 组 到 C。 但 实际 上 ， 给 定 节 
点 能 够 发 送 分 组 的 范围 并 不 一 定 是 个 固定 的 圆圈 ， 随 着 距离 的 增加 信号 会 衰减 。 因 此 A 发 
送 分 组 到 C 可 能 有 30% 的 成 功率 ， 而 它 发 送 分 组 到 BB 可 能 有 80 贤 的 成 功率 。 所 以 有 时 候 
(30% 的 概率 ) 可 能 不 需要 也 把 分 组 转发 给 C， 分 组 有 可 能 已 经 到 CC 了。 因此 C 告 诉 也 “不 要 
给 我 转发 分 组 ， 我 已 经 收 到 了 ”可 能 会 更 好 些 。 麻 省 理工 学 院 已 经 通过 名 为 Roofnet 的 无 线 
测试 平台 测试 了 该 方法 , 结果 显示 其 超越 常规 方法 ， 吞吐 量 大 增 。 但 该 方法 也 意味 着 A, B 
和 C 与 通过 简单 链 路 把 它们 连接 起 来 不 一 样 了 。 对 于 这 个 情况 有 人 说 它 违 背 了 分 层 结构 ， 然 
而 也 有 人 (比如 本 书 作 者 ) 佩服 这 种 创造 力 ， 因 为 它 通过 超越 传统 分 层 而 提高 了 性 能 。 

这 样 的 例子 数不胜数 ， 从 无 线 链 路 层 向 高 层 传 递 信 息 确 实 有 很 多 好 处 ， 它 也 有 助 于 将 
信息 从 物理 层 传 递 到 链 路 层 。 这 里 有 个 很 好 的 平衡 。 分 层 是 工具 ， 没 有 分 层 ， 构 造 大 规 谍 
网 络 可 能 是 很 困难 的 。 但 是 应 该 意识 到 ， 无论 什么 时 候 通过 分 层 来 隐藏 信息 ， 就 可 能 失去 
那些 本 不 该 隐藏 的 信息 。 我 们 应 该 把 分 层 (或 者 任何 其 他 抽象 形式 ) 当 作 是 工具 ， 而 不 是 
不 可 侵犯 的 规则 。 





无 线 网 络 的 安全 性 

与 有 线 链 路 相 比 ， 无 线 链 路 的 明显 问题 就 是 不 能 确定 数据 已 经 去 了 哪里 。 可 能 清楚 炎 
据 已 经 到 达 了 期 望 的 接收 者 ， 但 却 不 清楚 有 和 多少 其 他 接收 者 可 能 也 已 经 收 到 了 所 传输 的 数 
据 。 因 此 ， 如 果 关 心 数据 的 私密 性 ， 使 用 无 线 网 络 就 是 个 挑战 . 

即使 不 关心 数据 的 私密 性 ， 或 者 可 能 已 经 采取 了 一 些 其 他 方法 (参见 第 8 章 中 关于 该 
主题 的 讨论 )， 但 还 是 需要 考虑 一 个 未 授权 的 用 户 在 网 络 中 注入 数据 的 问题 ， 这 将 会 消耗 
网 络 资源 ， 例 如 在 住所 和 ISP 之 间 有 限 的 带宽 。 

因为 这 些 原因 ,无 线 网 络 需 要 有 一 些 机 制 来 控制 链 路 本 里 以 及 传输 的 数据 。 这 些 机 制 
通常 称 为 无 线 网 络 的 安全 性 (wireless security) 。 安 全 是 个 大 型 主题 ， 在 第 8 章 中 会 详细 
论述 ,在 8.4.5 节 会 介绍 无 线 网 络 安全 性 的 细节 。 


相关 主题 

卫星 通信 

无 线 通信 在 特定 场合 的 一 种 应 用 是 基于 卫星 的 。 卫 星 电话 利用 通信 卫星 作为 基站 ， 在 
国际 上 为 卫星 保留 的 频段 上 通信 而 且 能 在 没有 蜂窝 基站 的 地 方 获 得 服务 。 因 为 服务 代价 胃 
高 ， 所 以 卫星 电话 很 少 用 于 蜂窝 电话 。 由 于 卫星 比 蜂 窜 电 话 塔 远 ， 所 以 传输 和 接收 需要 经 
过 更 远 的 距离 ， 卫 星 电 话 比 现代 蜂窝 电 话 大 而 重 。 用 于 电视 和 无 线 广 播 的 卫星 通信 利用 了 
信号 广播 而 不 是 点 对 点 的 优势 ， 使 用 更 为 广泛 。 利 用 卫星 的 高 带宽 数据 通信 在 商业 上 是 可 
行 的 ， 但 是 它 的 相对 高 代价 (设备 和 服务 ) 将 其 使 用 范围 限制 在 了 没有 其 他 可 选 通信 方式 
的 地 区 。 








2.8 小 结 

本 章 介绍 了 各 种 各 样 的 链 路 ， 它 们 可 以 将 用 户 连 接 到 现 有 的 网 络 ， 并 构造 大 规模 网 
络 。 然 而 这 些 链 路 之 间 有 着 巨大 的 差异 ， 存 在 许多 问题 和 技术 需要 解决 。 有 五 个 关键 问题 
必须 被 解决 ， 以 便 相互 连接 的 两 个 或 多 个 节点 能 够 彼此 交换 报 文 。 
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首要 问题 是 在 源 节点 将 组 成 二 进 制 消息 的 比特 编码 成 信号 ， 然 后 在 接收 节点 再 将 信和 号 
恢复 成 比特 .这 是 编码 问题 ， 遇 到 的 挑战 是 需要 保持 发 送 方 和 接收 方 的 时 钟 同 步 。 我 们 讨 
论 了 四 种 不 同 的 编码 技术 : NRZ、NRZI、 曼 彻 斯 特 和 4B/5B， 它 们 在 如 何 将 时 钟 信息 与 
被 发 送 数据 一 起 编码 的 问题 上 有 很 大 区 别 。 编码 方案 的 关键 属性 之 一 是 效率 ， 即 信号 脉冲 
与 编码 比特 的 比率 。 

一 旦 可 以 在 节点 之 间 发 送 比 特 ， 下 一 步 是 确定 如 何 将 这 些 比特 打包 成 帧 。 这 是 组 帧 问 
题 ， 归 结 起 来 就 是 能 辨认 每 一 帧 的 开始 与 结束 。 同 样 ， 我 们 介绍 了 几 种 不 同 的 技术 ， 包 括 
面向 字 节 的 协议 、 面 向 比特 的 协议 和 基于 时 钟 的 协议 。 

假设 每 个 节点 能 够 识别 构成 一 个 帧 的 比特 集 ， edi re gp er ti 
上 是 否 正确 ,或 者 它们 在 发 送 中 是 否 可 能 被 破坏 。 这 是 差错 检测 问题 ， 我 们 也 介绍 了 三 种 
不 同 的 方法 : 循环 元 余 校 验 (CRC)、 二 维 奇 侦 校 验 pens 自然 ， 其 中 的 CRC 方法 提 
供 了 最 强 的 保证 ,并且 是 链 路 层 上 使 用 最 广泛 的 方法 。 

如 果 某 些 即 将 到 达 目 的 节点 的 帧 包含 差错 ， 则 这 些 帧 将 被 丢弃 ， 下 一 个 问题 就 是 如 何 
从 这 种 丢失 中 恢复 ， 目 的 是 使 链 路 看 起 来 是 可 靠 的 。 解 决 这 个 问题 的 一 般 方法 称 为 自动 请 
RER (ARQ)， 它 使 用 确认 和 超时 相 结合 的 方法 。 我 们 介绍 了 三 种 特别 的 ARQ 算法 : 
停止 -等 待 、 滑 动 窗口 和 并 发 信道 。 这些 算 法 的 吸引 人 之 处 在 于 为 了 保持 信道 满载 ， 它 们 
是 如 何 有 效 使 用 链 路 的 。 

最 后 一 个 问题 与 点 到 点 链 路 无 关 ， 但 它 是 多 路 访问 链 路 的 主要 问题 : 如 何 调解 对 一 个 
共享 链 路 的 访问 ， 以 便 使 所 有 节点 最 终 都 有 机 会 发 送 自己 的 数据 。 在 这 种 情况 下 ， 我们 介 
绍 了 一 些 介质 访问 协议 Re A 至 用 在 局 域 网 的 实际 建 
设 中 。 由 于 无 线 传输 范围 有 限 ， 一 些 节 点 可 能 彼此 隐藏 ， 无 线 网 络 的 介质 访问 较为 复杂 。 
现在 ， 多 数 普通 无 线 网 络 协议 将 一 些 节点 指定 为 有 线 节点 或 基站 节点 ， 而 其 他 移动 节点 与 
基站 通信 。 随 着 网 格 网 络 (所 有 节点 均 作为 对 等 实体 通信 ) 的 涌现 ， 无 线 网 络 标准 和 技术 
得 以 迅速 发 展 。 

接 下 来 会 发 生 什 么 :“ 物 联网 ” 

随 着 处 理 能 力 和 存储 技术 的 发 展 ， 廉 价 的 低能 耗 设 备 在 持续 增加 ， 互 联网 中 “主机 ” 
的 概念 发 生 了 显著 的 变化 。20 此 an 70 年 代 和 80 年 代 因 特 网 中 主要 使 用 的 是 互相 连接 的 复 
杂 计 算 机 ,今天 因特网 中 的 主机 可 以 是 笔记 本 电脑 或 移动 电话 ， 更 小 的 设备 也 变 得 越 来 越 
可 行 ， 例 如 传感器 和 执行 器 也 可 以 作为 因特网 中 的 主机 。 这 些 设 备 虽 小 ， 但 数量 众多 ， 由 
此 出 现 了 “ 物 联 网 ”概念 一 一 在 物 联 网 中 的 很 多 物体 ， 从 电灯 开关 到 工厂 中 的 仓储 盒 ， 都 
是 互联 网 中 可 寻 址 的 “主机 ”。 

大 量 微小 物体 组 成 网 络 的 概念 听 起 来 像 科 幻 小 说 (也许 是 反 乌 托 邦 的 小 说 )， 但 确实 
有 许多 具体 的 实际 应 用 。 其 中 之 一 是 通过 网 络 应 用 控制 各 种 设备 能 耗 的 想法 。 电 灯 开 关 等 
可 以 装 上 传 感 品 (测量 电力 负荷 、 环 境 温 度 等 ) 和 执行 费 (控制 设备 何 时 激活 ， 例 如 推 壕 
洗衣 机 的 使 用 ， 直 到 用 电 高 峰 期 过 去 ， 这 时 电费 较 便 宜 )。 这 个 概念 常常 出 现在 “智能 电 
网 ”主题 中 ， 受 今天 的 能 源 公 司 和 设备 供应 商 所 追捧 。 

万 亿 个 小 型 、 低 能 耗 、 廉 价 、 间 吹 连 接 的 设备 形成 的 网 络 对 主机 技术 提出 了 挑战 。 
个 简单 的 例子 ， 在 第 4 章 中 将 会 讨论 的 IPv6 的 设计 要 受到 影响 ， 需 要 寻 址 的 数量 
世界 上 传统 计算 机 的 数量 。 类 似 地 ， 需 要 开发 新 的 路 由 协议 在 设备 间 转 发 数据 ， 它 们 有 低 
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的 能 耗 预 算 和 不 可 靠 的 无 线 连 接 。 其 至 还 需要 开发 新 的 操作 系统 ， 用 于 这 些 能 量 、CPU 
和 存储 资源 都 受 限 的 微小 设备 。 

“ 物 联网 ”的 未 来 我 们 拭目以待 ， 但 显而易见 物 联网 已 经 超越 了 仅仅 互联 计算 机 的 视 
角 ， 互 联 亿 万 个 智能 设备 的 应 用 仅仅 是 个 开始 


扩展 阅读 
在 过 去 的 20 年 中 ， 计 算 机 网 络 技术 方面 最 重要 的 文献 之 一 是 Metcalf 和 Boggs 撰写 的 
介绍 以 太 网 的 独创 性 论文 (1976)。 许 多 年 之 后 ，Boggs、Mogul 和 Kent 报告 了 他 们 使 用 
以 太 网 的 实际 经 验 (1988). 打破 了 多 年 来 文献 中 的 许多 神话 。 这 两 篇 文 草 都 是 必 读 的 
第 三 篇 文章 讨论 了 包括 802. 11 在 内 的 无 线 网 络 的 相关 问题 。 
。 Metcalf, R. , and D. Boggs. Ethernet; Distributed packet switching for local com 
puter networks. Communications of the ACM 19 (7); 395-403, July 1976. 

。 Boggs, D.. J. Mogul, and C. Kent. Measured capacity of an Ethernet. Proceedings 
of the SIGCOMM’88 Symposium, pages 222-234, August 1988. 

e Bharghavan, V., A. Demers, S. Shenker. and L. Zhang. MACAW; A media ac- 
cess protocol for wireless LANS. Proceedings of the SIGCOMM 94 Symposium. 
pages 212-225, August 1994. 

有 不 计 其 数 的 教科 书 重点 强调 了 网 络 层 次 结构 的 较 低 层 ， 特别 是 远程 通信 (telecom- 
munication) 一 一 从 电话 公司 角度 的 联网 。 两 本 较 好 的 书 是 Spragins 等 LSHP91」 和 Min- 
oli [Min93] 编写 的 。 还 有 几 本 书 集中 讨论 了 各 种 局 域 网 技术 。 自 然 ，Stallings 的 书 
[Sta00] 是 最 全 面 的 ， 而 Jain 的 书 [Jai94] 对 光 通 信 的 低层 细节 做 了 很 好 的 介绍 。 

无 线 网 络 是 很 活跃 的 研究 领域 ， 每 年 都 有 新 颖 且 有 趣 的 论文 出 现 , Gupta 和 Kumar 
的 论文 LGK00]. 建立 了 关于 无 线 网 络 容量 的 理论 。Basagni 等 [BCGS04] 对 无 线 自 组 织 
网 络 进 行 了 很 好 的 介绍 。Bicket 等 [BABM05] 介绍 了 Roofnet 无 线 网 格 网 络 的 实验 . 
Biswas 和 Morris [BM05] 展示 了 运行 在 Roofnet 上 的 ExOR。 后 者 的 论文 是 使 用 路 层 信 
息 改 进 无 线 网 络 性 能 的 例子 。Jamieson 等 [JB07] 介绍 了 跨 层 技术 的 不 同 使 用 在 面临 比特 
差错 的 情况 下 改善 吞吐 量 的 内 容 。Wong 等 [WYLB06]」 关 注 于 如 何在 无 线 信道 中 进行 差 
错 率 和 带宽 的 权衡 ， 以 便 提高 数据 传输 的 准确 率 。Katti 等 [KRH 06] 研究 了 使 用 网 络 
编码 提高 无 线 网 络 性 能 的 可 行 性 。 

最 近 Xiao 等 [XCL10] 编写 的 书 调研 了 传感器 网 络 的 许多 方面 。Vasseur 和 Dunkels 
[VD10] 针对 “ 物 联 网 ”如 何 使 用 因特网 协议 实现 传感器 与 其 他 智能 设备 的 互联 提出 了 上 一 
种 前 向 的 观点 。 

针对 信息 理论 ，Blahut [Bla87] 的 书 是 一 本 很 好 的 入 门 读物 ， 同 时 可 以 阅读 Shannon 
[Sha48] 关于 链 路 容量 的 论文 。 

针对 关于 比特 差错 的 综合 介绍 ， 推 荐 Rao 和 Fujiwara [RF89] 的 书 ， 对 于 循环 元 余 
校 验 的 详细 讨论 ， 以 及 硬件 实现 的 问题 ， 可 参考 Peterson 和 Brown 的 书 [PB61]。 

最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 

。 http: //standards. ieee. org/: IEEE 的 各 种 与 网 络 相关 的 标准 的 发 展 状 况 ， 包 括 以 

太 网 和 802.11. 
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画 出 图 2-36 中 所 示 比 特 模式 的 NRZ、 曼 彻 斯 特 和 NRZI 编码 。 假 设 NRZI 信号 从 低 电 平 开始 。 
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K 2-36 习题 1 图 


. 给 出 比特 序列 1110 0101 0000 0011 的 4B/5B 编码 ， 以 及 得 到 的 NRZI 信和 号。 
. 给 出 比特 序列 1101 1110 1010 1101 1011 1110 1110 1111 的 4B/5B 编码 ， 以 及 得 到 的 NRZI 信和 号 。 
. 在 4B/5B 编码 (OUK 2-2) 中 ， 所 使 用 的 5 比特 编码 中 只 有 两 个 是 以 两 个 0 结尾 的 。 有 多 少 个 可 能 的 5 


比特 序列 (被 现存 编码 使 用 或 不 使 用 ) 使 其 满足 最 多 有 一 个 前 导 0 和 最 多 有 一 个 末尾 0 这 一 较 强 的 限 
制 ? 所 有 的 4 比特 序列 都 能 映射 到 这 样 的 5 比特 序列 上 吗 ? 


. 假设 一 个 组 帧 协议 使 用 比特 填充 ， 当 帧 包含 比特 序列 110101111101011111101011111110 时 ， 夯 出 链 路 


上 传输 的 比特 序列 并 标记 填充 的 比特 ， 


. 假设 一 条 链 路 上 到 达 比 特 序 列 1101011111010111110010111110110。 给 出 去 掉 任 意 填 充 比 特 之 后 的 帧 。 


指出 可 能 引入 帧 中 的 任何 差错 。 


. 假设 一 条 链 路 上 到 达 比 特 序 列 011010111110101001111111011001111110。 给 出 去 掉 任 意 填 充 比 特 之 后 


的 帧 ， 指 出 可 能 引入 帧 中 的 任何 差错 。 


- 假设 用 BISYNC 组 帧 协议 发 送 数据 ， 数 据 的 最 后 两 个 字 节 是 DLE 和 ETX, RA CRC 之 前 传送 的 字 


季 序 列 是 什么 ? 


- 对 于 下 列 每 一 种 组 帧 协议 ， 给 出 一 个 字 节 / 比 特 序列 ， 使 它 肯定 不 会 出 现在 传输 中 。 


(a) BISYNC, 
(b) HDLC, 


x 10. 假设 无 论 何 时 出 现 1 比特 ，SONET 接收 方 就 对 它 的 时 钟 进行 重 同步 ; 否则， 接收 方 在 它 认 为 是 该 比 


特 的 时 间 片 的 中 间 位 置 对 信号 进行 采样 。 

(a) 为 了 能 正确 接收 一 行 中 的 48 个 全 0 字 节 (一 个 ATM 信 元 的 值 )， 要 求 发 送 方 和 接收 方 时钟 的 相 
对 精确 度 是 多 少 ? 

(b) 考虑 一 个 SONET STS-1 线路 上 的 转发 站 A， 它 从 下 游 端点 B 接收 帧 并 将 它们 向 上 游 重新 传输 。 
为 了 防止 A 每 分 钟 积累 多 于 一 个 的 额外 帧 ， 要 求 A 和 也 时 钟 的 相对 精确 度 是 多 少 ? 


. 说 明 为 什么 二 维 奇偶 校 验 可 以 检测 到 所 有 的 3 比特 错 。 
: 给 出 一 个 4 比特 错 的 例子 ， 使 得 如 图 2-14 所 示 的 二 维 奇偶 校 验 无 法 检测 。 通 常 在 哪些 情况 下 检测 不 


到 4 比特 错 ? 


:说明 二 维 奇 偶 校 验 为 接收 方 提 供 了 足够 的 信息 来 纠正 任意 1 比特 错 (假设 接收 方 知道 只 有 1 比特 是 


错 的 )， 但 不 能 纠正 任意 2 比特 错 。 


4. 说 明 因 特 网 校 验 和 永远 不 会 是 0xFFFF (HI sum 的 最 终 值 不 会 是 0x0000)， 除 非 缓冲 区 中 的 每 一 字 节 


都 是 0。( 事 实 上 ， 因 特 网 规范 要 求 校 验 和 0x0000 用 OxFFFF 传输 ，0x0000 值 为 省 略 的 校 验 和 保留 。 
注意 ， 在 反 码 运算 中 ，0x0000 和 OxFFFF 都 表示 0 值 ,) 


< 证 明 除 了 在 最 后 的 校 验 和 中 的 字 节 应 该 交换 成 正确 的 顺序 外 ， 书 中 的 因特网 校 验 和 计算 与 字 节 顺序 


x 17. 


20. 


22. 


23. 
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(主机 顺序 或 网 络 顺序 ) 无 关 。 特 别 是 ， 以 两 种 字 节 顺序 中 的 任何 一 种 计算 16 位 字 的 校 验 和 -例如 
16 位 字 的 反 码 和 (表示 为 十 ') 可 表示 为 

LA, B] 十 '[C, D] +e +#'[Y, Z] 
下 面 交 换 后 的 和 与 上 面 的 和 一 样 : 

CB, A] +’[D, C] +’ +'[Z, Y] 


. ABTS FET PS AS DAR) eS AL EE EY = de) A E S le E j 1 (例如 ， 首 部 的 跳 数 字段 )。 给 出 


一 个 算法 ， 不 宕 重新 扫描 整个 缓冲 区 就 能 计算 修正 的 校 验 和 。 你 的 算法 应 该 芍 虑 所 讨论 的 字 节 是 低 
字 节 还 是 高 字 节 。 

说 明 因特网 校 验 和 可 以 通过 下 列 方式 计算 : 首先 对 32 位 单元 中 的 缓冲 区 求 32 位 的 反 码 和 ， 然后 对 
高 半 字 和 低 半 字 求 16 位 的 反 码 和 ， 最 后 同样 对 结果 求 反 。( 为 了 在 32 位 的 补 码 硬件 上 求 32 位 的 反 码 
和 ， 和 需要 访问 “ 游 出 ”位 。) 


. 假设 要 传输 消息 11001001， 并 用 CRC 多 项 式 at + 1 防止 它 出 错 ， 


(a) 使 用 多 项 式 长 除法 确定 应 传输 的 消息 。 
(b) 假设 由 于 传输 链 路 上 的 噪声 使 得 消息 最 左 端的 比特 发 生 反 转 。 接 收 方 的 CRC 的 计算 结果 是 什么 
接收 方 如 何 知 道 发 生 了 一 个 差错 ? 


. 假设 要 传输 消息 1011 0010 0100 1011， 并 用 CRC 多 项 式 r +2? Ha! +1 防止 它 出 错 . 


Ca) 使 用 多 项 式 长 除法 确定 应 传输 的 消息 。 

(b) 假设 由 于 传输 链 路 上 的 噪声 使 得 消息 最 左 端的 比特 发 生 反 转 。 接 收 方 CRC 的 计算 结果 是 什么 ? 
接收 方 如 何 知道 发 生 了 一 个 差错 ? 

本 章 提 出 的 CRC 算法 需要 许多 比特 操作 。 然 而 ， 通 过 一 种 表 驱 动 方法 ， 可 能 一 次 取 多 个 比特 进行 多 项 

式 长 除法 ， 这 使 得 CRC 的 软件 实现 很 有 效 。 这 里 概述 一 次 取 3 比特 进行 长 除法 的 策略 ( 见 表 2- 5); 实 

际 中 ， 我 们 一 次 除 8 比特 ， cae 256 + AA. 









































A BRB C=C) H+H, 或 1101。 为 了 给 C 建 表 2-5 表 了 驱动 计算 CRC 
立 一 个 表 ， 取 每 个 3 比特 序列 p. a 末尾 附加 3 个 0， 然 后 p aa Ose CXq 
求 商 a= p 0004C, AMA. #3 列 是 乘积 Cxg， 它 的 前 000 000 000 
3 个 比特 应 该 等 于 p. 001 001 001 101 
re A 010 011 010 --- 
(a) 对 于 p=110, SER g=p 000+CAMlqa=p 111>+C È 
Ol] 0 011] === 
相同 的 ; BE BE. AR Sim HERE Hh A ICG RE 。 z 一 一 
00 0 
Cb) 填充 表 中 缺少 的 条 目 。 100 | E ) 
101 110 101 110 
Co) 利用 该 表 ， 用 C 去 除 101 001 011 001100, HER: 被 除数 
jif 了 sp 110 100 110 --- 
的 前 3 比特 是 p= 二 101， 所 以 从 表 中 看 出 ， 相 应 的 商 的 前 + 
: ; 111 ne 11 =- 
3 比特 是 g 二 110。 在 被 除数 的 第 二 个 3 比特 上 写 F110,， — | ”~ | oo 


然后 再 从 表 中 将 被 除数 的 前 6 比特 减 去 CXq=101 110, 
3 比特 一 组 继续 进行 。 应 该 没有 余数 。 


. 用 1 个 奇偶 校 验 位 能 够 检测 所 有 的 1 比特 错 。 说 明 如 下 所 示 的 推广 至 少 有 一 种 无 交 


Ca) 说 明 如 果 消 息 m 的 长 度 是 8 比特 ,那么 不 存在 2 比特 的 差错 检测 码 e = eG) er i 2 比 
特 错 。 提示: 考虑 只 有 1 位 是 1 的 所 有 8 比特 消息 的 集合 M; 注意 ,来 自 M 的 任何 消息 能 够 变 
成 任何 其 他 含 2 比特 错 的 消息 ， 并 说 明 M 中 的 某 两 个 消息 ma 和 wu 一定 有 相同 的 差错 偶 。。 

Ch) 找到 一 个 N (不 必 是 最 小 的 )， 使 得 应 用 于 N 比特 抉 的 32 比特 差错 检测 码 不 能 够 检测 出 改变 到 
最 多 8 比特 的 所 有 差错 。 

考虑 一 个 仅 使 用 否定 确认 帧 (NAK) 但 是 没有 肯定 确认 帧 CACK) 的 ARQ 协议 。 描 述 宙 要 如 何 安 

排 超时 。 解 释 为 什么 一 个 基于 ACK 的 协议 通常 比 基 于 NAK 的 协议 更 可 取 

芍 虑 在 一 条 40km 的 点 到 点 光纤 链 路 上 运行 的 ARQ 算法 ， 
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Ca) iS) SEG AY SERER, [BILE PAY ERE 2X 10°m/s 。 
(b) 提出 一 个 用 于 ARQ 算法 的 台 适 的 超时 值 。 
(c) 给 定 这 个 超时 值 之 后 ， 为 什么 ARQ 算法 仍 可 能 超时 并 重 传 帧 ? 


. 假设 你 为 到 月 球 的 一 条 1Mbps 点 到 点 链 路 设计 一 个 滑动 窗口 协议 ， 单 程 时 延 是 1. 25s。 假 设 每 帧 携 


带 1 KB 数据， 最 少 需 要 多 少 比特 作 序 号 ? 


. 假设 你 为 卫星 站 的 一 条 1Mbps 点 到 点 链 路 设计 一 个 滑动 窗口 协议 ， 卫 星 在 3X10*km 的 高 度 绕 地 球 


旋转 。 假 设 每 帧 携带 LKB 数据 ， 在 下 述 情况 下 ， 最 少 需要 多 少 比 特 作 序号 ? 假设 光速 为 310* my/s。 
(a) RWS=1, 

(b) RWS=SWS. 

本 章 提出 的 滑动 窗口 协议 可 用 于 实现 流量 控制 。 这 样 做 时 我 们 可 以 想象 接收 方 延迟 几 个 ACK， 即 直 
到 有 一 个 空闲 的 缓冲 区 存放 下 一 帧 才 发 送 ACK。 这 样 ， 每 一 个 ACK 将 同时 确认 收 到 最 后 一 帧 并 告 
诉 源 方 现在 存在 可 用 于 保存 下 一 帧 的 空闲 缓冲 区 。 解 释 为 什么 以 这 种 方式 实现 流量 控制 不 是 一 个 好 
主意 。 


: 图 2-17 的 停止 -等 待 图 示 中 隐 含 的 含义 是 ， 接 收 方 收 到 重复 的 数据 帧 后 就 立即 重 发 ACK。 假 设 改 为 


接收 方 拥 有 自己 的 计时 器 .只 有 当期 待 的 下 一 帧 在 超时 间隔 内 没有 到 达 后 它 才 重 传 ACK。 假 设 接 收 
方 的 超时 值 是 发 送 方 的 2 倍 ,， 画 出 说 明 图 2-17b 一 图 2-17d 中 情形 的 时 间 线 。 假 设 接收 方 的 超时 值 是 
发 送 方 的 一 半 ， 重 画图 2-17c 的 时 间 线 。 


28. 在 停止 -等 待 传输 中 ,假设 收 到 重复 的 ACK 或 数据 帧 后 ， 发 送 方 和 接收 方 都 立即 重 传 上 一 帧 。 这 一 


策略 表面 上 是 合理 的 ， 央 为 收 到 这 种 重复 的 ACK 很 可 能 意味 着 男 一 方 超时 了 。 

Ca) 夯 一 条 时 间 线 ,说 明 如 果 第 一 个 数据 帧 不 知 何故 重复 了 ,但 没有 帧 丢失 时 会 发 生 什么 情况 。 重 复 
过 程 将 持续 多 久 ? 这 种 情况 称 为 “魔术 师 的 学 徒 错 误 ”。 

(b) 假设 像 数 据 一 样 ， 如 果 在 超时 期 间 内 没有 响应 ，ACK 也 被 重 传 。 同 时 假设 双方 使 用 相同 的 超时 
间隔 。 找 出 一 种 触发 “ 麻 术 师 的 学 徒 错 误 ” 的 合理 情况 。 

给 出 当 接 收 方 用 完 缓冲 区 空间 时 ， 如 何 通 过 让 ACK 携带 额外 的 信息 以 减 小 SWS 来 扩充 带 有 流量 控 

制 的 滑动 窗口 协议 的 一 些 细节 。 假 设 初始 SWS 和 RWS 都 是 4， 链 路 速度 是 瞬时 的 ， 并 且 接 收 方 能 够 

以 每 秒 一 个 的 速率 释放 缓冲 区 〈 即 接收 方 是 瓶颈 )。 用 一 条 传输 时 间 线 说 明 这 个 协议 。 说 明 在 T=0s, 

T=ls, =e, T=4s 时 会 发 生 什 么 。 


» 描述 一 个 将 滑动 窗口 算法 和 可 选 ACK 相 结合 的 协议 。 该 协议 应 该 能 及 时 重 传 ， 但 如 果 一 帧 到 达 时 只 


有 一 个 或 两 个 位 置 次 序 颠 倒 ， 则 不 重 传 。 该 协议 也 应 该 明确 指出 ， 如 果 几 个 连续 的 帧 丢失 了 会 发 生 
什么 。 


. 对 于 下 列 两 种 情况 ， 画 出 SWS=RWS=3 帧 的 滑动 窗口 算法 的 时 间 线 图 。 使 用 的 超时 间隔 大 约 为 2x 


RTT, 

(a) Wi 4 BA. 

Cb) Wi 4~ Wi 6 ER. 

对 于 下 列 两 种 情况 ， 画 出 SWS= RWS= 4 帧 的 滑动 窗口 算法 的 时 间 线 图 。 假 设 接收 方 在 未 收 到 期 望 
的 帧 时 发 送 一 个 重复 确认 帧 。 例 如 ， 当 它 希 望 看 到 FRAME [2] 却 收 到 FRAME [3] 时 ， 便 发 送 
DUPACK [2]。 当 接收 方 收 到 一 系列 帧 时 也 发 送 一 个 累积 的 确认 。 例 如 ， 当 它 在 收 到 FRAME [3]， 
FRAME [4] 和 FRAME [5] 之 后 又 收 到 丢失 的 FRAME [2]， 便 发 送 ACK [5]。 使 用 的 超时 间隔 
大 约 为 2xRTT。 

(a) 帧 2 丢失 ， 超 时 之 后 重 传 (如 通常 一 样 ) 。 

Cb) 帧 2 丢失 ， 在 收 到 第 一 个 重复 确认 帧 或 超时 之 后 重 传 。 这 种 方法 能 减少 处 理 时 间 吗 ?注意 为 了 快 
速 重 传 ， 某 些 端 到 端 协议 CU TCP 的 变种 ) 使 用 类 似 的 方法 。 


3. 假设 要 运行 SWS 二 RWS=3 和 MaxSeqNum= 5 的 滑动 窗口 算法 。 因 而 ,第 N 个 分 组 DATA [N] 在 


它 的 序号 字段 中 实际 包含 N mod 5。 给 出 算法 造成 错乱 的 一 个 例子 ， 即 接收 方 期 待 DATA [5] 却 收 
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36. 


37. 


38. 


39. 


40. 





到 DATA [0] (它们 具有 相同 的 发 送 序号 ) 。 没 有 以 错 序 到 达 的 分 组 ,注意 ， 这 意味 着 MaxSeqNum 
三 6 是 充分 必要 条 件 。 


. 考虑 SWS=RWS=3 的 滑动 窗口 算法 ， 没 有 错 序 到 达 ， 并 有 具有 无 限 精度 的 序号 ， 


(a) 说 明 如 果 DATA [6] 在 接收 窗口 内 ,那么 DATA [0] (或 一 般 而 言 任意 较 早 的 数据 ) 不 可 能 
到 达 接 收 方 〈 因 此 ，MaxSeqNum=6 应 该 是 充分 的 )。 

(b) 说 明 如 果 能 够 发 送 ACK [6] (或 更 精确 地 说 ，DATA [5] 在 发 送 窗口 内 ). 那么 收 不 到 ACK 2 
(或 更 早 的 数据 )。 

这 些 是 对 2. 5.2 节 中 给 出 的 公式 的 一 个 证 明 ， 是 对 SWS=3 情况 的 详 述 : 注意 ，(b) 隐 仿 说明 前 一 

个 问题 不 能 反 过 来 包含 无 法 区 分 ACK [0] MACK [5] 的 情况 ， 


. 假设 运行 SWS 二 5 Al RWS=3 的 滑动 窗口 算法 ， 并 且 没 有 错 序 到 达 。 


(a) 求 MaxSeqNum 的 最 小 值 。 可 以 假设 下 述 条 件 对 于 求 最 小 的 MaxSeqNum 是 充分 的 ， 如 果 DATA 
[MaxSeqNum] 在 滑动 窗口 内 ,那么 DATA [0] 不 会 到 达 。 

(b) 给 出 一 个 例子 ， 说 明 MaxSeqNum-1 不 是 充分 的 ， 

(c) 给 出 最 小 化 MaxSeqNum 的 通用 规则 ， 用 SWS 向 RWS 表示 。 

假设 通过 一 台中 间 路 由 器 R 将 A 连接 到 B， 如 图 2-37 所 示 。A-R 链 路 和 R-B 链 路 在 每 个 方向 上 每 秒 

只 接收 并 传输 一 个 分 组 (因此 两 个 分 组 占用 28) ， 并 且 两 个 方向 独立 传输 。 假设 A 使 用 SWS=4 的 滑 

动 窗口 协议 向 BB 发 送 。 

(a) 对 于 时 间 T=0, 1, 2, 3, 4, 5， 指 出 到 达 并 离开 每 个 节点 的 各 个 分 组 .或 将 它们 标记 在 一 条 时 间 
线 上 。 

(Cb) 如 果 链 路 上 有 一 个 1. 0s 的 传输 延迟 ,但 立即 接收 到 达 的 所 有 分 组 (即时 延 三 1s 而 带宽 无 限 )， 那 
么 会 发 生 什 么 ? 

假设 通过 一 台中 间 路 由 器 R 将 A 连接 到 B， 如 上 题 。A 一 R 链 路 是 瞬时 的 , 但 R 一 B 链 路 每 秒 只 传输 

一 个 分 组 ,一 次 一 个 (因此 两 个 分 组 占用 2s)。 假 设 A 使 用 SWS=4 的 滑动 窗口 协议 向 B 发 送 。 对 于 

时 间 T=0. 1, 2, 3, 4， 说 明 哪些 分 组 到 达 A 和 BB 并 从 A 和 B 发 出 。R 上 的 队列 会 变 得 多 长 ? 

考虑 上 题 中 的 情况 ， 这 次 假设 路 由 器 队列 长 度 为 1， 即 除了 正在 发 送 的 分 组 外 ， 它 还 能 保存 一 个 分 组 

(在 每 个 方向 上 ) 。 令 A 的 超时 是 5s、SWS=4。 说 明 从 T=0 直到 第 一 个 满 窗 的 所 有 4 个 分 组 都 被 成 

功 传输 的 每 一 秒 当中 会 发 生 什么 。 

当 在 以 太 网 上 的 两 个 主机 共享 一 台 硬 件 地 址 时 会 出 现 什么 类 型 的 问题 ?描述 会 发 生 什么 情况 以 及 为 

什么 这 些 情况 会 成 为 问题 。 

1982 年 的 以 太 网 规范 允许 任意 两 个 站 点 之 间 的 同 轴 电 ，。 表 2-6 各 种 设备 相关 的 典型 延迟 (习题 40) 

缆 最 长 可 达 1 500m， 其 他 点 到 点 链 路 电费 长 1 000m， 项 A at 

并 有 两 个 中 继 器 。 每 个 站 点 或 中 继 器 通过 最 长 50m AY 同 轴 电缆 传播 速度 0. 77 

“分 接 电缆 ”连接 到 同 轴 电缆 。 表 2-6 给 出 与 每 个 设备 。 链 路 /分 支 电 绕 传播 速度 0. 65 

相关 的 典型 延迟 (其 中 c= 二 真空 中 的 光速 二 3X10*m/ paky 每 个 大 约 0. Sps 

s)。 由 列 出 的 设备 源 引起 的 以 比特 度量 的 最 坏 往返 传 。 收发 器 每 个 大 约 0. 

播 延 迟 是 多 少 ? (列表 并 不 完全 ， 其 他 延迟 源 包括 检 

测 时 间 和 信号 上 升 时 间 。) 
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. 在 同 轴 电 缆 以 太 网 上 ， 两 个 中 继 器 之 间 的 最 大 距离 被 限制 在 500m， 中 继 器 重新 产生 100% 原 振幅 的 


信号 。 沿 着 一 个 500m 的 网 段 ， 信 号 将 衰减 到 不 低 于 初 值 的 14% (8. 5dB)。 那 么 ， 沿 着 1 500m 的 网 
段 ， 豪 减 可 能 为 0.143 二 0.3%。 即 使 沿 着 2 500m 的 网 段 ， 这 样 一 个 信号 仍然 是 可 读 的 。 那 么 ， 为 什 
么 要 求 每 500m 放置 一 个 中 继 咒 ? 


. 假设 以 太 网 的 往返 传播 延迟 是 46. 4ys。 这 就 会 产生 一 个 512 位 的 最 小 分 组 尺寸 464 位 传播 延迟 十 48 


位 干扰 信号 )。 
(a) 如 果 延 迟 时 间 保 持 不 变 ， 并 且 发 信号 的 速率 增长 到 100Mbps， 那 么 最 小 分 组 尺寸 会 发 生 什么 ? 
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U 


49. 


Cb) 这 么 大 的 最 小 分 组 尺寸 的 缺点 是 什么 ? 

Co) 如 果 菇 容 性 不 是 问题 ， 那么 为 了 人 允许 更 小 的 最 小 分 组 尺寸 ， 应 该 怎样 制定 规范 ? 

A 和 BB 是 试图 在 以 太 网 上 传输 的 两 个 站 。 每 个 站 有 一 个 准备 发 送 的 帧 的 稳定 队列 ，A 的 帧 被 编号 为 

Al、As， 等 等 ，B 的 帧 类 似 。 令 T=51. 2s 是 指数 退 避 的 基本 单元 。 

假设 A 和 B 同 时 想 发 送 帧 1， 导致 冲突 ， 并 分 别 选择 退 避 时 间 0XT 和 1X T， 这 意味 着 A 在 竞争 中 

获胜 并 传输 Ai 而 BCE. 在 这 次 传输 结束 时 ，B 将 试图 重 传 B 而 A 试图 传输 As* 。 这 种 首次 尝试 又 

会 冲突 ， 但 现在 A 退 避 0xT 或 1XT，, 而 B 退 避 的 时 间 等 于 0XT，…，3X 工 中 之 一 。 

(a) 给 出 第 一 次 冲突 后 A 立即 在 第 二 次 退 避 竞争 中 获胜 的 概率 ， 就 是 说 ，A 第 一 次 选择 的 退 避 时 间 
AX SL. 2us 小 于 B 的 退 避 时 间 ， 

(b) 假设 A 在 第 二 次 退 避 竞争 中 获胜 。A 传输 A;， 当 传输 结束 时 ,在 A 试图 传输 A 而 B 试图 再 一 
次 传输 Bl 时，A 和 B 又 发 生 冲 突 。 给 出 第 一 次 冲突 后 A 立即 在 第 三 次 退 避 竞争 中 获胜 的 概率 。 

Co) 为 A 在 所 有 余下 的 退 避 竞争 中 获胜 的 概率 给 出 一 个 合理 的 下 界 。 

(d) 然后 帧 Bi 发 生 了 什么 ? 

这 种 情形 称 为 以 太 网 的 捕获 效用 (capture effect). z 


. 假设 按 如 下 方式 修改 以 太 网 的 传输 算法 : 在 每 个 成 功 传输 完成 后 ， 主 机 等 待 一 或 两 个 时 间 片 之 后 再 


尝试 传输 ， 否 则 采用 常用 方式 退 避 。 

Ca) 解释 为 什么 上 题 的 捕获 效用 现在 变 得 如 此 小 。 

Cb) 说 明 上 述 策略 现在 如 何 导致 一 对 主机 捕获 以 太 网 ， 交 蔡 传 输 ， 并 将 第 三 台 主 机 拒 之 门 外 。 

Co) 提出 一 个 可 供 选择 的 方法 例如， 通过 修改 指数 退 避 算法 。 一 个 站 点 的 历史 记录 的 哪些 方面 可 被 
用 作 所 修改 的 退 避 的 参数 ? 


5. 以 太 网 使 用 曼彻斯特 编码 。 假设 共享 以 太 网 的 主机 没有 完全 同步 ， 为 什么 在 没有 等 到 分 组 最 后 的 


CRC 时 就 可 以 检测 出 冲突 ? 


- 假设 A、B、C 都 进行 第 一 次 载波 监听 ， 作 为 传输 尝试 的 一 部 分 ， 而 第 4 个 站 D 正在 传输 。 画 出 一 条 


时 间 线 ， 说 明 一 个 可 能 的 传输 、 尝 试 、 冲 突 和 指数 退 避 选择 的 序列 。 这 条 时 间 线 也 应 该 满足 下 列 准 
WW: (1) 初始 传输 淮 试 应 该 按 A、B、C 的 顺序 ， 而 成 功 的 传输 应 该 按 C、B、A 的 顺序 ; (2) 至 少 应 


该 有 4 个 冲突 。 


47. 重复 前 一 道 习 题 ， 现 在 假设 以 太 网 是 p- 坚 持 的 ，p 二 0. 33( 即 线路 成 为 空闲 时 ， 等 待 站 立即 用 概率 p 


传输 ， 耕 则 推迟 一 个 51. 2ps 时 间 片 并 重复 该 过 程 )。 这 条 时 间 线 应 该 满足 准则 ， @ 初 始 传输 尝试 应 
该 按 A、B、C 的 顺序 ， 而 成 功 的 传输 应 该 按 C、B、A 的 顺序 ; @ 说 明 在 一 条 空闲 线路 上 4 个 延迟 时 
间 片 内 至 少 有 一 个 冲突 ， 并 且 至 少 有 一 次 发 送 成 功 。 此 外 要 注意 ,可 能 有 许多 解决 方案 。 


48. 假设 以 太 网 物理 地 址 是 随机 选择 的 使 用 真 随机 比特 )。 


(a) 在 一 个 有 1 024 台 主机 的 网 络 上 ， 两 个 地 址 相同 的 概率 是 多 少 ? 
Cb) 上 述 事件 发 生 在 2 个 网 络 的 某 一 个 或 菜 几 个 上 的 概率 是 多 
Co) Ch) 中 的 所 有 网 络 中 2? 台 主 机 的 某 一 对 有 相同 地 址 的 概率 是 多 少 ? 
提示 : Ca) 和 Co) 的 解法 就 是 用 于 解决 所 谓 的 生日 问题 的 另 一 种 形式 : 给 定 N 个 人 ， 其 中 两 个 人 的 
生日 〈 地 址 ) 相同 的 概率 是 多 少 ? 第 二 个 人 与 第 一 个 人 的 生日 不 同 的 概率 是 1 一 1/365， 第 三 个 人 与 
前 两 个 人 的 生日 不 同 的 概率 是 1 一 2/365， 依 此 类 推 。 因 此 ， 所 有 的 生日 不 同 的 概率 是 

( 


tix 2\ . N=] 
1 sae x (1— 365 ) 


少 ? 








对 于 较 小 的 N 大 约 为 
1 十 2 十 … 十 (N 一 1) 
365 
假设 一 个 以 太 网 上 有 5 个 站 点 在 等 待 另外 的 分 组 传输 结束 。 只 要 分 组 传输 完毕 ，5 个 站 点 就 立刻 开始 
传输 ， 并 导致 冲突 。 


] 
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Ca) 模拟 这 种 情况 ， 直 到 这 5 AE Ee Ae i EFS ETT ak Hah H fe tE SE h Ba LAG E 
退 避 时 间 。 进 行 下 列 简化 : 忽略 帧 之 间 的 间距 ， 忽略 冲突 时 间 的 可 变性 (因此 ， 重 传 总 是 在 
51. 2ps 时 间 片 的 一 个 整数 倍 的 时 间 后 进行 );， 并 且 假 设 每 个 冲突 恰好 用 完 一 个 时 间 片 。 

Cb) 讨论 模拟 中 的 简化 效果 ， 与 你 可 能 在 一 个 真实 的 以 太 网 上 过 到 的 行为 作对 比 。 


50. 写 一 个 程序 来 实现 上 面 讨论 的 模拟 ， 这 次 有 N 个 站 点 在 等 竺 传输。 此外， 用 整数 工 模拟 时 间 ， 单 位 


on 
an oo A WwW 


uw < uw ur 


~ 


是 时 间 片 ， 并 且 认 为 冲突 占用 一 个 时 间 片 〈 因 此 ， 对 于 跟着 k=O 的 退 避 ， 其 本 时 刻 的 冲突 将 导致 
了 十 1 时 刻 的 重 传 尝 试 ) 。 对 于 N=20, N=40 和 N=100， 找 出 一 个 站 点 成 功 传输 之 前 的 平均 延迟 
你 的 数据 支持 “在 N 中 延迟 是 线性 的 ”这 一 概念 吗 ? 提示 : 对 于 每 个 站 点 ， 记 录 站 的 NextTimeTo- 
Send 和 CollisionCount。 到 达 时 刻 工时， 只 有 一 个 站 点 的 NextTimeToSend==T. Ib As KI TE RE 
完成 了 。 如 果 没 有 这 样 的 站 点 ， 工 增加 1。 如 果 有 两 个 或 更 多 的 站 点 .调度 重 传 然 后 再 试 。 

- 假设 N 个 以 太 网 站 同时 试图 发 送 ， 需 要 N/2 个 时 间 片 来 确定 下 次 由 哪个 站 点 传输 . 假设 平均 分 组 大 

小 是 5 个 时 间 片 ， 将 有 效 带宽 表示 成 N 的 函数 。 

. 考虑 下 面 的 以 太 网 模型 。 传输 尝试 以 1 个 时 间 片 的 平均 时 间 间 隔 随 机 进行 。 特 别 地 ， 连 续 的 尝试 之 

间 的 时 间 间 隔 是 一 个 指数 随机 变量 2 = —Alog u, JEP u 是 在 间隔 Ou] 中 随机 选择 的 。 如 果 从 1 一 

1 到 4 十 1 的 范围 内 有 另 一 个 传输 尝试 ， 那 么 时 刻 1 的 尝试 导致 冲突 ， 其 中 4 是 以 51. 2ps 时 间 片 为 单 

位 来 度量 的 ; 否则 该 尝试 成 功 。 

(a) 对 于 一 个 给 定 的 A4 值 ， 写 一 个 程序 . 借 拟 一 个 成 功 传输 之 前 所 需 的 时 间 片 的 平均 数量 ， 称 为 争 用 
间隔 (contention interval) 。 找 出 争 用 间隔 的 最 小 值 。 注意 ， 必 须 找 出 一 个 在 一 次 成 功 传输 之 后 
的 传输 尝试 ， 以 便 确定 是 否 存在 冲突 。 忽 略 重 传 ， 因 为 它 可 能 不 符合 上 面 的 随机 模型 。 

(b) 以 太 网 在 争 用 间隔 和 成 功 传输 之 间 交 蔡 。 假 设 成 功 传输 平均 持续 8 个 时 间 片 (512 字 节 )。 利 用 
上 面 的 争 用 间隔 的 最 小 长 度 ， 那 么 理论 上 的 10Mbps 带宽 中 有 多 少 可 用 作 传 输 ? 

. 当 两 个 无 线 节 点 的 距离 间隔 大 于 其 传播 可 达 区 域 时 ， 这 两 个 节点 如 何 才 能 通信 ? 

. 为 什么 在 无 线 网 络 中 做 冲突 检测 要 比 在 有 线 网 络 (如 以 太 网 ) 中 复杂 ? 

. 在 802. 11 网 络 中 如 何 检 测 隐藏 终端 ? 

. 为 什么 发 生 自 然 灾 难 时 ， 通信 中 的 无 线 网 格 拓扑 优 于 基站 拓扑 ? 

. 为 什么 对 于 传感器 网 络 的 每 个 节点 利用 GPS 获取 位 置 的 方法 不 可 行 ?请 提供 一 个 实用 的 方法 。 
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网 络 互 联 





自然 界 似乎 是 通过 多 条 漫长 而 曲折 的 道路 才能 到 达 其 诸多 终点 。 


问题 : 并 不 是 所 有 网 络 都 是 直接 相连 的 

在 前 面 的 章节 中 ， 我 们 看 到 了 如 何 将 一 个 节点 连接 到 另 一 个 节点 或 现 有 网 络 。 许 多 技 
术 可 以 用 于 构建 “最 后 一 英里 ”的 链 路 或 连接 数量 适中 的 节点 ， 但 如 何 建立 全 局 规模 的 网 
络 呢 ? 单个 的 以 太 网 可 以 互联 不 超过 1 024 台 主 机 ， 而 点 对 点 链接 只 能 连接 两 台 主 机 。 无 
线 网 络 受 限于 波段 可 达 的 范围 。 为 了 构建 全 局 网 络 ， 我 们 需要 找到 一 种 连接 不 同类 型 的 互 
联 链 路 和 网 络 的 方法 。 这 种 将 不 同类 型 的 网 络 互 联 起 来 构建 一 个 大 型 的 全 球 性 网 络 的 概念 
是 因特网 的 核心 概念 ， 通 常 称 为 网 络 互 联 (internetworking) 。 

我 们 可 以 将 网 络 互联 问题 分 解 为 一 些 子 问题 。 首 先 ， 我们 需要 一 种 互联 的 途径 。 互 联 
同 种 类 型 链 路 的 设备 通常 被 命名 为 交换 机 (switch)， 本章 首 先 讨论 这 些 设备 。 当 前 ， 交 
换 机 中 最 重要 的 一 类 是 那 种 用 来 连接 以 太 网 段 的 交换 机 ， 这些 交换 机 有 时 也 称 为 网 桥 
(bridge)。 交 换 机 的 核心 工作 是 使 分 组 到 达 输 入 端 并 转发 (forward) 或 交换 (switch) 到 
合适 的 输出 端 ， 使 它们 到 达 适 当 的 日 的 地 。 交 换 机 有 很 多 种 方法 为 一 个 分 组 确定 “正确 ” 
的 输出 ， 这 些 方 法 大 致 可 以 分 为 无 连接 和 面向 连接 两 类 。 多 年 来 ， 这 两 种 方法 都 有 各 自 的 
重要 应 用 领域 。 

虽然 已 知 各 种 不 同 的 网 络 类 型 ， 但 我 们 仍然 需要 一 种 途径 来 互联 不 同 的 网 络 和 链接 
(如 蜡 构 性 处 理 ) 。 曾 被 称 为 网 关 (gateway) 的 设备 ， 现 在 更 多 地 被 称 为 路 由 器 (router). 
用 于 处 理 不 同类 型 的 网 络 互 联 的 协议 ， 即 网 际 协议 (IP)， 是 3. 2 节 的 主题 。 

一 旦 我 们 用 交换 机 和 路 由 器 互联 了 所 有 的 链接 和 网 络 ， 就 可 能 获得 很 多 不 同 的 一 个 点 
到 其 他 点 的 途径 。 通 过 网 络 找到 合适 的 途径 或 路 由 (route) 也 成 为 网 络 互联 的 基础 问题 。 
例如 ， 路 径 应 该 是 有 效 的 〈 比 如 最 短 )、 无 回环 且 可 以 处 理 非 静态 网 络 问题 。 出 现 这 些 问 
题 是 因为 节点 可 能 出 错 或 重启 ， 链 接 可 能 断裂 ， 以 及 需要 增添 新 节点 或 链接 等 。3. 3 节 将 
展望 一 些 已 有 的 处 理 此 类 问题 的 算法 和 协议 。 

一 旦 我 们 理解 了 交换 和 路 由 面临 的 问题 ， 我 们 就 需要 一 些 设备 来 执行 这 些 功 能 。 本 章 
最 后 总 结 了 一 些 关 于 建立 交换 和 路 由 的 讨论 。 虽 然 许 多 分 组 交换 机 和 路 由 器 与 通用 计算 机 
非常 类 似 ， 但 也 有 很 多 专门 的 设计 。 这 一 点 在 高 端 应 用 的 情况 下 尤为 突出 ， 此 时 互联 网 的 
核心 似乎 永 无 止境 地 需要 更 大 、 更 快 的 路 由 器 来 处 理 日 益 增 加 的 传输 负荷 。 


3.1 交换 和 桥接 ? 
简单 地 说 ， 交 换 是 一 种 允许 我 们 互联 链 路 以 形成 一 个 更 大 规模 网 络 的 机 制 。 交 换 机 是 








5 参见 “实验 三 ” 
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一 个 多 和 输入、 多 输出 的 设备 ， 它 能 由 一 个 输入 端口 传送 分 组 到 一 个 或 多 个 得 出 端口 。 交 换 
机 把 一 个 星 形 拓扑 结构 〈 见 图 3-1) 加 到 第 2 章 中 o 
建立 的 点 到 点 链 路 、 总 线 〈 以 太 网 ) 和 环形 拓扑 = 
结构 上 。 星 形 拓扑 结构 具有 以 下 优点 ， | tie 
© 尽管 交换 机 有 固定 数目 的 输入 端口 和 输出 Fi 
端口 ， 限 制 了 能 直接 连 到 单 台 交 换 机 上 的 bs d 
主机 数 ， 但 是 我 们 可 以 通过 互联 多 台 交换 | 六 Yo a 
机 来 建立 一 个 更 大 的 网 络 。 Ta 
。 我 们 可 以 通过 点 到 点 的 链 路 把 交换 机 互 # 
联 ， 并 把 主机 连接 到 交换 机 上 。 通 常情 况 sida 
下 ， 这 意味 着 我 们 可 以 建立 一 个 地 理 范 围 iy 
很 大 的 网 络 。 
。 在 将 一 台新 主机 连 到 交换 机 上 使 之 加 入 网 
络 时 ， 并 不 意味 着 已 和 网 络 相 连 的 主机 的 图 3-1 由 交换 机 构成 的 星 形 拓扑 
性 能 会 变 差 。 

最 后 一 点 不 适用 于 第 2 章 中 讨论 的 共享 介质 网 络 。 例 如 ， 位 于 同一 个 以 太 网 上 的 两 台 
主机 继续 以 10Mbps 传输 数据 是 不 可 能 的 ， 因 为 它们 共享 相同 的 传输 介质 。 交 换 网 中 每 台 
主机 都 有 一 条 到 交换 机 的 链 路 ， 所 以 许多 主机 以 全 链 路 速度 (带宽 ) 传输 数据 是 完全 可 能 
的 ， 只 要 交换 机 的 设计 具有 足够 的 总 容量 。 交 换 机 的 设计 目标 之 一 就 是 提供 高 吞吐 量 ， 我 
们 在 下 面 再 讨论 这 个 问题 。 总 之 ， 交 换 网 比 共享 介质 网 更 具 可 扩展 性 〈scalable)， 即 具备 
增加 更 多 节点 的 能 力 ， 因 为 交换 网 支持 更 多 主机 以 全 链 路 速度 传输 数据 。 

交换 机 被 连接 到 许多 链 路 上 ， 为 了 与 链 路 另 一 端的 节点 进行 通信 ,每 一 条 链 路 都 运行 
相应 的 数据 链 路 协议 。 交 换 机 的 主要 工作 就 是 在 它 的 一 条 链 路 上 接收 输入 分 组 ， 再 把 这 些 
分 组 从 其 他 的 链 路 上 传输 出 去 。 采 用 OSI 体系 结构 中 的 术语 ， 这 种 功能 有 时 也 称 为 交换 
(switching) 或 转发 (forwarding)， 这 是 网 络 层 的 主要 功能 。 

问题 是 交换 机 如 何 决定 把 每 个 分 组 放 到 哪 一 个 输出 链 路 上 呢 ? 一 般 的 解决 方法 是 交换 机 
查看 分 组 首部 中 的 标识 符 ， 通 过 这 个 标识 符 来 做 出 决定 。 使 用 这 个 标识 符 的 方法 多 种 多 样 ， 
但 是 有 两 种 常用 的 方法 。 第 一 种 是 数据 报 (datagram) 或 称 无 连接 (connectionless) 的 方法 ， 
第 二 种 是 虚 电 路 (virtual circuit) 或 称 面向 连接 (connection) 的 方法 。 第 三 种 方法 不 如 前 两 
种 常用 ， 称 为 源 路 由 (source routing)， 但 它 最 容易 解释 并 且 确 实 有 一 些 有 用 的 应 用 。 

所 有 网 络 都 需要 采用 一 种 方法 来 标识 端 节点 ， 这 种 标识 符 通 常 称 为 地 址 Caddress) 。 
在 第 2 章 中 ， 我 们 已 经 见 过 几 个 地 址 的 实例 。 例 如 以 太 网 中 使 用 的 48 位 地 址 。 对 于 以 太 
网 中 的 地 址 ， 唯 一 的 要 求 就 是 网 络 中 不 存在 具有 相同 地 址 的 两 个 节点 ， 这 通过 确保 所 有 的 
以 太 网 卡 都 有 一 个 全 局 唯一 (globally unique) 标识 符 来 实现 。 在 下 面 的 讨论 中 , 我 们 假 
设 每 一 台 主 机 都 有 一 个 全 局 唯一 的 地 址 。 以 后 ， 我 们 会 考虑 地 址 的 其 他 有 用 特性 ， 但 作为 
讨论 的 起 点 ， 地 址 的 全 局 唯一 性 就 足够 了 。 

我 们 需要 做 的 另外 一 个 假设 就 是 有 一 些 方法 可 用 来 标识 每 台 交 换 机 的 输入 和 输出 端 
口 。 至 少 有 两 种 实用 的 端口 标识 方法 : 一 种 是 给 每 个 端口 进行 编号 ， 另 一 种 是 用 输入 和 和 输 
出 端口 所 连接 的 节点 (交换 机 或 主机 ) 的 名 字 标 识 来 识别 端口 。 现 在 ， 我 们 使 用 给 端口 纺 
号 的 方法 。 
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3.1.1 数据 报 
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数据 报 的 思想 非常 简单 : 只 需 确 保 每 个 分 组 带 有 足够 的 信息 ， 使 得 任何 一 台 交 换 机 都 
能 决定 怎样 使 它 到 达 目 的 地 。 这 就 是 说 ， 每 个 分 组 都 带 有 完整 的 目的 地 址 。 考 查 图 3- 2 中 
的 例子 。 在 这 个 例子 中 ， 主 机 的 地 址 为 A、B、C 等 ， 要 决定 怎样 转发 一 个 分 组 ， 交 换 机 
需要 查阅 转发 表 (forwarding table) (有 时 称 为 路 由 表 (routing table))。 表 3-1 给 出 路 由 
表 的 一 个 例子 。 这 张 特 定 的 表 显 示 交 换 机 2 在 转发 上 例 中 的 数据 报时 所 需 的 转发 信息 。 当 
你 对 这 里 描述 的 简单 网 络 有 了 完全 的 了 解 后 ， 就 很 容易 画 出 这 样 的 一 张 表 ， 我 们 可 以 想象 
这 张 表 是 由 网 络 管理 员 静 态 做 出 的 。 但是， 对 于 有 动态 变化 的 拓扑 结构 和 有 多 条 路 径 可 到 
达 目 的 地 的 大 型 复杂 网 络 ， 建 立 转发 表 就 变 得 很 困难 。 这 个 更 难 的 问题 称 为 路 由 (rou- 


ting), Æ 3. 3 节 讨 论 的 主题 。 


我 们 可 以 把 路 由 选择 看 作 是 在 这 种 背景 下 发 生 的 过 程 ， 当 数 


据 分 组 到 达 时 ， 在 转发 表 中 能 够 获得 正确 信息 来 转发 或 交换 分 组 。 


主机 D 


w, 


数据 报 网 络 有 以 下 特点 : 





交换 机 3 EPB 


主机 H 
数据 报 转发 的 网 络 示例 


表 3-1 交换 机 2 的 转发 表 























。 一 台 主 机 无 论 何 时 都 可 以 发 送 分 组 ， 因 为 任何 到 达 交 目的 地 端 日 
换 机 的 分 组 都 能 立即 转发 〈 假 设 正确 建立 了 转发 表 )。 A 3 
正 因 为 如 此 ， 数 据 报 网 络 也 称 为 无 连接 的 (connec- T : 
tionless)。 这 和 面向 连接 (connection-oriented) 的 网 D w : 
络 不 同 ， 因 为 面向 连接 网 络 在 发 送 第 一 个 数据 分 组 之 E 2 
前 需要 建立 某 种 连接 状态 (connection state), I 1 

( 











> 当 一 台 主 机 发 送 一 个 分 组 时 ， 主 机 无 法 知道 网 络 是 否 | 
AR H 0 


可 以 传送 该 分 组 或 目的 主机 是 否 可 以 接收 。 





。 每 个 分 组 的 转发 都 是 独立 于 前 面 的 分 组 的 ， 哪 怕 这 几 个 分 组 有 可 能 传送 到 相同 的 
目的 地 。 这 样 ， 从 主机 A 到 主机 B 的 两 个 连续 的 分 组 可 能 沿 着 完全 不 同 的 路 答 
(也 许 是 由 于 网 络 中 某 台 交换 机 更 改 了 转发 表 ) 进行 传送 。 
。 当 一 台 交 换 机 或 一 段 链 路 出 现 故 障 时 ， 如 果 有 可 能 在 故障 点 周围 找到 一 条 可 蔡 代 
的 路 径 ， 并 相应 地 更 新 转发 表 ， 那 么 对 通信 并 不 会 产生 任何 严重 的 影响 . 
最 后 一 点 对 于 数据 报 网 络 的 历史 发 展 尤其 重要 。 因 特 网 最 重要 的 设计 目标 之 一 是 具有 
应 对 错误 的 健壮 性 ， 历 史 证 明 数 据 报 有 效 地 达到 了 这 个 目标 ? 。 


3.1.2 虚 电 路 交换 

第 二 种 明显 不 同 于 数据 报 模式 的 分 组 交换 技术 采用 了 上 庶 电 路 (Virtual Circuit, VC) 
的 概念 。 这 种 方法 也 称 为 面向 连接 模式 (connection-oriented model), ， 它 要 求 在 发 送 数据 
之 前 首先 在 源 主机 和 目的 主机 之 间 建 立 一 条 虚 连 接 。 为 了 理解 它 的 工作 原理 .考虑 图 3- 3， 
图 中 主机 A 想 把 分 组 发 送 到 主机 B. 我 们 可 以 把 它 看 作 一 个 两 阶段 的 处 理 过 程 . 第 一 个 阶 
段 是 “建立 连接 ”， 第 二 个 阶段 是 传输 数据 。 我 们 分 别 子 以 考虑 。 
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图 3-3 虚 电 路 网 络 的 例子 


在 建立 连接 阶段 ， 需 要 在 源 主机 和 目的 主机 之 间 的 每 一 台 交 换 机 上 建立 “连接 状态 ”. 
连接 状态 由 连接 经 过 的 每 台 交 换 机 中 的 “VC 表 ” 记 录 组 成 。 交换机 上 的 VC 表 中 的 一 条 
记录 包括 : 


。 虚 电 路 标识 符 (Virtual Circuit Identifier，VCI) ， 在 这 台 交 换 机 上 唯一 标识 连接 ， 
并 且 将 放 在 属于 这 个 连接 的 分 组 首部 内 传送 。 

© 从 这 个 VC 到 达 交 换 机 的 分 组 的 输入 接口 。 

© 从 这 个 VC 离开 交换 机 的 分 组 的 输出 接口 。 

。 用 于 输出 分 组 的 一 个 可 能 不 同 的 VCI 

这 样 一 条 记录 的 语义 如 下 : 如 果 分 组 在 指定 的 输入 接口 到 达 并 且 首 部 包含 指定 的 VCI 
值 ， 那 么 先 将 这 个 分 组 的 首部 VCI 替换 成 指定 的 输出 VCI 并 将 分 组 发 送 到 指定 的 输出 端口 

注意 ， 交 换 机 收 到 的 分 组 的 VCI 和 收 到 分 组 的 接口 的 组 合 唯 一 标识 这 个 虚 连 接 。 当 
SR, 在 一 台 交 换 机 上 可 能 会 同时 建立 许多 虚 连 接 。 我 们 可 以 观察 到 ,输入 的 VCI 值 和 输 





日 ”再 次 声明 : ARPANET 是 为 对 抗 核 打 击 而 构造 的 这 一 说 法 虽然 没有 得 到 其 实际 设计 人 员 的 证 实 ， 但 应 对 各 个 
构件 错误 的 健壮 性 的 确 是 其 目标 之 一 
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出 的 VCI 值 一 般 不 同 。 所 以 ， 对 于 一 个 连接 来 讲 ，VCI 不 是 全 局 意义 的 标识 符 ， 而 只 是 
在 一 段 给 定 链 路 上 有 意义 ， 即 它 具 有 和 链 路 局 部 范围 (link-local scope). 

当 要 建立 一 个 新 连接 时 ， 在 连接 所 要 经 过 的 每 段 链 路 上 分 配 一 个 新 的 VCI 值 。 我 们 
也 要 确保 在 一 段 链 路 上 选 定 的 VCI 的 值 未 被 该 链 路 上 已 存在 的 某 个 连接 使 用 。 

建立 连接 状态 有 两 大 类 方法 。 一 类 是 由 网 络 管理 员 配 置 连接 状态 ， 这 样 的 虚 电 路 是 
“永久 的 ”。 自 然 ， 管 理 员 也 可 以 删除 它 ， 因 此 永久 虚 电 路 〈Permanent Virtual Circuit, 
PVC) 最 好 看 作 长 期 生存 的 或 可 管理 配置 的 VC。 另 一 类 是 主机 发 送 消息 给 网 络 以 建立 连 
接 状 态 。 发送 的 消息 称 为 信 令 (signalling)， 这 样 建立 的 虚 电 路 称 为 是 交换 的 
(switched) .一 个 交换 的 虚 电 路 (SVC) 的 突出 特性 是 主机 可 以 动态 地 建立 和 删除 这 个 虚 
电路 ， 而 不 需要 网 络 管理 员 的 参与 。 注 意 ，SVC 应 该 更 准确 地 称 作 信 令 (signalled) 虚 电 
路 ， 因 为 它 使 用 信 令 (而 不 是 交换 ) 的 方式 ， 这 正 是 SVC PVC 的 区 别 。 

我 们 假设 网 络 管理 员 想 手工 创建 一 条 从 主机 A 到 主机 B 的 新 的 虚 连 接 。 首 先 ， 管 理 
员 要 标识 一 个 从 A 到 B 经 过 网 络 的 路 径 ， 在 图 3-3 的 网 络 例子 中 只 有 一 条 路 径 ， 但 在 一 般 
情况 下 可 能 不 是 这 样 。 然 后 管理 员 在 连接 的 每 段 链 路 上 选择 一 个 当前 没有 使 用 的 VCI 值 。 
为 达到 例子 的 目的 ， 假 设 从 A 到 交换 机 1 链 路 的 VCI 值 选 为 5， 从 交换 机 1 到 交换 机 2 链 
路 的 VCI 值 选 为 11。 在 这 种 情况 下 ,交换机 1 在 VC 表 中 需要 有 一 条 配置 成 如 表 3-2 中 所 


7K 的 记录 。 


表 3-2 交换 机 1 的 虚 电 路 表 条 目 








输入 接口 输入 VCI 输出 接口 输出 VCI 
2 5 1 11 








类 似 地 ， 假 设 标识 从 交换 机 2 到 交换 机 3 链 路 连接 的 VCI 值 选 为 ?7， 从 交换 机 3 到 主 
机 B 链 路 的 VCI 值 选 为 4。 这 样 交换 机 2 和 交换 机 3 需要 配置 的 VC 表 记 录 如 表 3-3 所 示 。 
注意 一 台 交 换 机 的 输出 VCI 值 就 是 下 一 台 交 换 机 的 输入 VCI 值 。 
- 旦 VC 表 建 立 ， 就 可 以 进入 数据 传输 阶段 ， 如 图 3-4 所 示 。 对 于 每 一 个 欲 发 送 到 主 
机 B 的 分 组 ， 主 机 A 将 值 为 5 的 VCI 放 入 分 组 首部 并 发 送 到 交换 机 1。 交 换 机 1 在 接口 2 
上 接收 每 个 这 样 的 分 组 ， 它 使 用 这 个 接口 号 和 分 组 首部 中 VCI 的 组 合 来 找到 相应 的 VC 表 
记录 。 如 表 3- 2 所 示 ， e 用 接口 1 发 送 分 组 ， 并 在 发 送 分 组 时 将 
分 组 首部 的 VCI 赋值 11。 这 样 ， 这 个 分 组 携带 值 为 11 的 VCI 从 接口 3 到 达 交 换 机 2。 交 
by eee ee 将 分 组 首部 的 
VCI 值 作 相应 的 更 改 后 发 到 交换 机 3， 如 图 3-5 所 示 。 此 过 程 继 续 ， 直 到 分 组 携带 值 为 4 
的 VCI 到 达 主 机 B。 主 机 也 由 此 识别 这 个 分 组 来 自主 机 A, 
表 3-3 交换 机 2 和 交换 机 3 的 虚 电 路 表 条 目 
交换 机 2 的 VC 表 条 目 
输入 接口 | 输入 VCI 输出 接口 输出 VCI 
3 11 2 多 
i E 交换 机 3 的 VC RAH 
输入 接口 输入 VCI 输出 接口 输出 VCI 
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图 3-4 分 组 被 发 送 到 虚 电路 网 络 


在 具有 相当 规模 的 真实 网 络 中 ,, 使 用 上 述 过 程 在 大 量 交 换 机 中 正确 配置 VC 表 . 很 快 
就 会 不 堪 重 负 。 因 此 ， 我 们 几乎 总 是 使 用 网 络 管理 工具 或 某 种 信 令 方法 ， 即 使 建立 “ 永 
久 ” 的 VC 也 是 如 此 。 在 PVC 的 情况 下 ， 信 令 由 管理 员 发 起 ,而 SVC 通常 是 使 用 其 中 一 
台 主 机 的 信 令 建立 的 。 现 在 ， 我 们 考虑 怎样 用 来 自主 机 的 信 令 建立 刚才 描述 的 VC. 

为 了 开始 发 信 令 的 过 程 ， 主 机 A 发 送 一 个 建立 消息 给 网 络 ， 即 发 给 交换 机 1。 这 个 建 
立 消 息 中 包含 主机 B 的 完整 的 目的 地 址 。 建 立 消息 需要 获得 到 达 B 的 整个 路 径 . 以 此 建立 
路 径 上 每 台 交 换 机 中 必需 的 连接 状态 。 我 们 可 以 看 到 传送 建立 消息 给 主机 B 很 像 传送 数据 
报 给 主机 B， 其 中 交换 机 必须 知道 用 哪个 输出 端口 发 送 建立 消息 才能 使 它 最 终 到 达 B. W 
在 ,我 们 假设 交换 机 知道 足够 的 网 络 拓 扑 结 构 ， 使 得 建立 消息 在 最 终 到 达 PB 之 前 依次 经 过 
交换 机 2 和 交换 机 3。 





主机 B 


图 3-5 分 组 穿越 虚 电 路 网 络 


交换 机 1 接收 到 连接 请 求 时 ， 除 了 将 此 请 求 发 送 给 交换 机 2 之 外 ， 还 为 这 个 新 连接 在 
它 的 虚 电 路 表 中 创建 一 个 新 的 记录 。 这 个 记录 和 前 面 表 3-2 所 示 的 一 样 。 主要 区 别 是 在 接 
口上 赋值 一 个 未 用 VCI 值 的 工作 是 由 交换 机 完成 的 。 在 本 例 中 ， 交换机 取 值 为 5。 当 前 虚 
电路 表 含 有 以 下 信息 :“ 当 到 达 端 口 2 的 分 组 标识 符 为 5 时 ， 从 端口 1 发 送 它们 。” 男 一 个 
问题 在 于 ， 主 机 A 需要 知道 将 值 为 5 的 VCI WA KEXA B 的 分 组 中 。 下 面 ， 我 们 将 看 
到 这 个 过 程 是 怎样 发 生 的 。 

在 交换 机 2 接收 到 建立 消息 后 ， 它 执行 一 个 类 似 的 过 程 ， 本 例 中 选择 11 作为 输入 的 
VCI 值 。 同 样 ， 交 换 机 3 选择 7 作为 输入 VCI 的 值 。 每 台 交 换 机 可 以 给 VCI 取 任意 值 ， 
只 要 这 个 值 是 交换 机 端口 上 的 其 他 连接 不 使 用 的 。 如 前 面 提 到 的 ，VCI 具有 “ 链 路 局 部 范 
围 ， 就 是 说 它们 没有 全 局 意义 。 

最 后 ， 建 立 消 息 到 达 主 机 B。 假 设 主机 B 正常 旦 愿意 与 主机 A 建立 连接 ， 它 也 分 配 一 
个 输入 VCI 值 ， 本 例 中 是 4。 主 机 B 用 这 个 值 识别 所 有 来 自主 机 A 的 分 组 ， 
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现在 ， 为 了 完成 连接 ， 每 一 个 节点 都 需要 知道 它 的 下 游 相 邻 节点 为 此 连接 使 用 的 VCI 
fi. 主机 也 给 交换 机 3 发 送 一 个 连接 建立 的 确认 消息 ， 此 消息 包含 它 选取 的 VCI 值 (4)。 
现在 交换 机 3 可 以 完成 此 连接 的 虚 电 路 表 记 录 ， 因 为 它 知道 输出 VCI 的 值 必定 是 4。 交换 
机 3 发 送 确认 消息 给 交换 机 2， 并 指定 VCI 值 为 7。 交 换 机 2 发 送 消息 给 交换 机 1， 指 定 
VCI (AW 11, 最 后 ,交换 机 1 将 确认 消息 传递 给 主机 A， 通 知 它 这 个 连接 使 用 的 VCI 值 
为 5。 

至 此 ， 每 个 节点 都 知道 从 主机 A 到 主机 B 通信 的 所 有 必需 信息 ， 每 台 交 换 机 内 都 有 
与 连接 有 关 的 完整 的 虚 电 路 表 记 录 。 而 且 , 主机 A 得 到 了 肯定 的 确认 ,知道 到 达 主 机 B 
的 整 条 路 径 上 的 每 件 事 都 已 准备 好 。 这 时 ， 连 接 表 记 录 已 经 存放 在 所 有 三 台 交 换 机 内 ， 正 
像 上 述 例子 中 管理 员 配 置 的 那样 。 但 响应 主机 A 发 出 的 信 令 消息 的 整个 过 程 是 自动 发 生 
的 。 现 在 数据 传输 阶段 可 以 开始 了 ， 而且 和 在 PVC 情况 下 的 用 法 相同 。 

当主 机 A 不 想 再 发 送 数 据 给 主机 B 时 ， 它 通过 给 交换 机 1 发 送 一 个 撤销 连接 的 消息 
来 撤销 连接 。 交 换 机 1 从 虚 电 路 表 中 删除 相关 记录 ， 并 把 撤销 信息 转发 给 路 径 上 的 其 他 交 
换 机 .下 一 台 交 换 机 同样 也 删 去 表 中 相应 记录 。 如 果 现 在 主机 A 再 发 送 一 个 VCI 为 5 的 
分 组 到 交换 机 1， 这 个 分 组 就 会 被 丢弃 ,就 像 连接 根本 不 存在 一 样 。 

对 于 虚 电 路 交换 还 要 说 明 几 点 : 

。 由 于 主机 A 在 发 送 第 一 个 数据 分 组 之 前 ， 必 须 等 待 连接 请 求 到 达 网 络 最 远 端 并 返 

回 ， 所 以 在 发 送 数 据 前 至 少 有 一 个 RTT 的 延迟 S。 

。 虽然 连接 请 求 包含 主机 B 的 完整 地 址 〈 作 为 网 络 的 全 局 标识 符 ， 这 个 地 址 也 许 会 
非常 大 )， 但 每 一 个 数据 分 组 仅 带 有 一 个 很 小 的 标识 符 ， 这 个 标识 符 只 在 一 段 链 路 
上 是 唯一 的 。 这 样 ， 相 对 于 数据 报 模式 ， 分 组 首部 引起 的 开销 就 会 减少 。 

。 如 果 一 个 连接 上 有 一 台 交 换 机 或 有 一 条 链 路 出 现 故障 ， 连 接 就 会 被 破坏 ， 这样 就 
需要 建立 一 个 新 的 连接 。 同 时 需要 撤销 原来 的 连接 ， 释 放 交 换 机 中 虚 电 路 表 的 存 
储 空间 ， 

。 我们 掩盖 了 一 台 交 换 机 怎样 决定 在 哪 一 条 链 路 上 传输 连接 请 求 的 问题 。 其 实 这 和 

数据 报 转发 时 建立 转发 表 是 同一 个 问题 ， 需 要 某 种 路 由 算法 (routing algorithm), 
路 由 选择 在 3. 3 节 描 述 ， 其 中 提 到 的 算法 对 于 路 由 建立 请 求 和 数据 报 是 可 通用 的 。 

虚 电 路 的 优点 之 一 是 主机 在 发 送 数据 前 知道 许多 网 络 信息 。 例 如 ， 主 机 知道 直 正 存在 
一 条 到 接收 方 的 路 径 ， 接 收 方 愿意 也 能 够 接收 数据 ， 并 且 在 建立 虚 电 路 时 也 可 以 把 资源 分 
配给 虚 电路 .例如 ，X. 25 网 络 是 早期 的 〈 现 在 几乎 废弃 ) 一 种 基于 虚 电 路 的 网 络 技术 。 
X. 25 网 络 采 用 的 策略 有 以 下 三 部 分 : 

1) 在 初始 化 虚 电路 时 ， 把 缓存 区 分 配给 每 一 个 虚 电路 。 

2) 在 虚 电 路 的 每 对 节点 之 间 使 用 滑动 窗口 协议 ( 见 2.5 节 ) 来 进行 流量 控制 ， 该 协 
以 是 为 了 防止 发 送 节点 使 接收 节点 分 配 的 缓冲 区 溢出 。 

3) 当 连 接 请 求 消息 传送 到 没有 足够 的 缓冲 区 的 某 个 节点 时 ， 建 立 虚 电 路 的 请 求 被 
拒绝 ， 

在 实施 这 三 项 策略 的 过 程 中 ， 每 个 节点 都 应 保证 有 足够 的 缓冲 区 ， 以 供 到 达 电路 的 分 














O ”这 并 不 是 完全 真实 的 。 一 些 人 提出 的 “高 效 ” 方 法 为 ,在 收 到 一 个 连接 请 求 时 马上 发 送 一 个 数据 分 组 。 然 而 ， 
很 多 当前 的 系统 实现 是 在 发 送 数 据 之 前 先 建立 连接 
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组 排队 所 需 。 这 种 基本 的 策略 称 为 逐 跳 流量 控制 Chop-by-hop flow control). 

比较 起 来 ， 数 据 报 网 络 没有 建立 连接 阶段 ， 且 每 台 交 换 机 独立 处 理 每 个 分 组 ， 这 使 得 
数据 报 网 络 如 何 用 有 效 方法 分 配 资 源 的 问题 得 以 淡化 。 而 每 个 到 达 的 分 组 与 其 他 分 组 竞争 
缓冲 区 空间 的 问题 却 突显 出 来 。 如 果 没 有 空闲 的 缓冲 区 ， 接收 的 分 组 必须 被 丢弃。 但 是 我 
们 注意 到 ， 即 使 在 基于 数据 报 的 网 络 中 ， 源 主机 也 经 常 发 送 一 组 分 组 到 同一 目的 主机 。 每 
台 交 换 机 可 以 根据 源 节点 /目标 节点 对 区 分 已 排队 的 分 组 ， 这 样 交换 机 可 以 保证 属于 每 个 
源 节 点 /目标 节点 对 的 分 组 公平 地 共享 缓冲 区 。 我 们 在 第 6 章 对 此 做 更 深入 的 讨论 

在 虚 电 路 模式 中 ， 我 们 可 以 设想 给 每 个 虚 电 路 提供 不 同 的 服务 质量 (Quality of Serv- 
ice, QoS) 。 在 这 种 背景 下 ， 服 务 质量 这 个 术语 通常 意味 着 网 络 可 为 用 户 提 供 多 种 与 性 能 
有 关 的 保证 ， 反 过 来 也 意味 着 交换 机 必须 留 出 足够 的 资源 来 满足 这 种 保证 。 例 如 ， 一 个 给 
定 虚 电路 中 的 交换 机 把 每 个 对 应 输出 链 路 的 带宽 的 百 分 之 几 分 配给 这 段 电路 。 另 一 个 例子 
是 一 组 交换 机 可 以 保证 沿 一 条 特定 虚 电 路 传输 的 分 组 的 延迟 (排队 ) 不 会 超过 一 定 的 时 
间 。 我 们 在 6. 5 节 再 讨论 服务 质量 的 问题 。 


相关 主题 

拥塞 简介 

交换 机 设计 者 必须 要 面 对 的 一 个 重要 问题 是 争 用 (contention)。 当 多 个 分 组 在 一 台 交 拉 
机 中 排队 时 就 会 出 现 争 用 ， 因 为 它们 在 竞争 相同 的 输出 链 路 。 我 们 在 1.4 节 中 讨论 交换 机 如 
何 处 理 这 个 问题 。 可 以 想象 争 用 发 生 在 独立 分 组 达到 的 时 间 段 里 。 而 与 之 相反 ， 拥 塞 发 生 在 
一 段 更 长 的 时 间 段 里 。 当 交换 机 中 排队 的 分 组 太 多 而 占用 了 所 有 的 缓冲 区 空间 时 ， 交 换 机 不 
得 不 丢弃 一 些 分 组 。 我 们 在 了 解 了 网 络 体 系 结构 的 传输 协议 部 分 之 后 ,在 第 6 章 中 再 讨论 拥 
塞 。 但 是 目前 我 们 看 到 ， 网 络 处 理 拥塞 的 方式 是 与 采用 虚 电 路 还 是 采用 数据 报 相 关 的 。 

一 方面 ,假设 每 一 台 交 换 机 分 配 足 够 的 缓冲 区 来 处 理 它 支 持 的 每 一 条 虚 电 路 上 的 分 
组 ， 像 X. 25 网 络 中 所 做 的 那样 。 这 样 ， 网 络 中 就 不 存在 拥塞 的 问题 了 ， 因 为 交换 机 不 可 
能 处 于 这 样 一 种 状态 : 排队 的 分 组 比 交换 机 缓存 空间 还 要 多 。 因 为 在 这 种 网 络 中 ， 如 果 它 
不 能 给 连接 提供 足够 的 资源 来 避免 拥塞 的 发 生 ， 那 么 从 一 开始 交换 机 就 不 允许 该 连接 的 建 
立 。 然 而 ， 这 种 方法 的 拳 端 在 于 极度 保守 一 一 在 同一 时 刻 ， 所 有 的 虚 电 路 不 可 能 都 使 用 它 
们 的 缓冲 区 ， 因 此， 降低 了 交换 机 的 利用 率 。 

另 一 方面 ， 数 据 报 模 式 看 上 去 会 引起 拥塞 ， 因 为 直到 缓冲 区 用 尽 以 致 于 产生 .了 拥塞 ， 
你 才 知 道 在 交换 机 中 有 如 此 多 的 竞争 。 这 时 ， 要 阻止 拥塞 已 经 太 述 了 ， 唯 一 的 选择 就 是 如 
何 从 拥塞 中 恢复 。 所 幸 的 是 ， 因 为 不 用 为 不 可 能 发 生 的 最 坏 情 况 预 留 缓 冲 区 ， 所 以 能 够 更 
好 地 利用 交换 机 。 

正如 在 很 多 常见 的 情况 一 样 ， 没 有 严格 的 对 与 错 。 不 产生 拥塞 (如 X25 网 络 模式 ) 
和 产生 拥塞 后 再 去 处 理 〈 像 简单 的 数据 报 模式 ) AAAA, RUER 6 章 中 再 研究 
这 些 设 计 方 法 。 





近年 来 基于 虚 电路 技术 有 很 多 很 成 功 的 技术 ， 特 别 是 X. 25、 帧 中 继 和 异步 传输 模式 
(ATM) 。 然 而 今天 ， 虽 然 因特网 的 无 连接 模型 获得 了 很 大 的 成 功 ， 但 并 没有 得 到 大 面积 
的 应 用 。 近 年 来 最 普遍 的 虚 电路 应 用 是 构造 虚拟 专用 网 〈Virtual Private Network, 
VPN), ， 这 个 主题 将 在 3. 2. 9 节 中 讨论 。 这 种 应 用 在 当前 基于 因特网 的 技术 中 得 到 广泛 
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支持 。 


相关 主题 

光 交 换 

对 于 2000 年 前 后 的 网 络 行业 观察 者 来 说 ， 光 交换 可 能 是 最 有 趣 的 交换 有 形式。 由 于 多 
种 因素 的 共同 作用 ， 光 交换 的 确 在 20 世纪 90 年 代 末 成 为 一 种 重要 的 交换 技术 。 一 种 因素 
是 密集 波 分 多 路 复 用 (Dense Wavelength Division Multiplexing. DWDM) 设备 的 商用 化 ， 它 
同时 以 大 量 不 同 长 度 的 光波 (或 颜色 ) 传输 信号 ， 使 一 和 上 举例 来 
说 ， 你 可 以 以 100 个 或 更 多 不 同 波长 来 发 送 数 据 ， 而 每 个 波长 可 能 携带 高 达 10 Gbps 的 数据 。 

另 一 个 因素 是 光 放 大 器 的 商用 化 。 光 信号 在 通过 光纤 时 会 衰减 ， 经 过 一 段 距离 (大约 
40 公里 左右 ) 后 需要 用 某 种 方法 使 它们 变 得 更 强 。 在 有 光 放 大 器 之 前 ， 必 须 在 通路 上 放 
置 中 继 器 来 恢复 光 信 号 ， 把 它 转 换 成 数字 电信 号 ， 然 后 再 转换 回 光 信 号 。 在 把 数据 送 入 中 
继 器 前 ， 必 须 用 DWDM 终端 对 其 进行 多 路 分 解 。 这 样 ， 在 长 距离 上 就 需要 用 很 多 DWDM 
终 : Wy AR oh — aE 不 同 于 中 继 器 ， 光 放大 器 是 模拟 (analog) 设备 ， 它 增强 任何 在 光 
纤 上 发 送 的 信号 ， 即 使 这 些 信 号 是 以 100 个 不 同 波长 发 送 的 。 光 放大 器 使 DWDM 装置 显 
得 更 有 吸引 力 ， 因 为 如 今 一 对 相隔 几 百 公里 的 DWDM 终端 也 可 以 相互 通信 。 而 且 ， 你 可 
以 在 两 端 升 级 DWDM 装置 而 不 必 改 动 路 径 中 的 光 放 大 器 ， 因 为 它们 可 以 像 放 大 50 个 波长 
那样 轻而易举 地 放大 100 个 波长 。 

有 了 DWDM 和 光 放 大 器 ， 就 可 以 建造 容量 巨大 的 光 网 络 。 但 至 少 还 需要 一 种 设备 才 
能 使 这 些 网 络 工 作 ， 那 就 是 光 交 换 机 (optical switch)。 现 今 大 多 数 所 谓 的 光 交 换 机 都 使 
用 电子 方式 实现 交换 功能 。 从 体系 结构 的 角度 来 看 ， 它 们 与 电路 交换 机 的 共同 之 处 要 多 于 
本 章 描 述 的 分 组 交换 机 。 一 台 典 型 的 光 交 换 机 有 大 量 能 够 理解 SONET 帧 格式 的 接口 ， 并 
且 能 够 把 来 自 一 个 输入 端口 的 SONET 信道 交 又 连接 到 一 个 输出 接口 。 这 样 ， 即 便 不 存在 
从 A 直接 到 己 的 光纤 路 径 ， 也 能 够 使 用 光 交 换 机 通过 点 CREM A A 到 点 B 的 SONET 
信道 一 一 只 需要 一 条 从 A 到 C 的 路 径 、 一 台 位 于 C 点 的 交换 机 以 及 一 条 从 C 到 也 的 路 径 。 
在 这 方面 ， 光 交换 机 和 图 3-3 中 的 交换 机 存在 某 种 关系 ， 因 为 它 制 造 了 两 点 间 有 和 连接 的 假 
象 ， 其 实 两 点 间 没 有 直接 的 物理 连接 。 然 而 ， 光 交换 机 不 提供 虚 电 路 ， 它 们 提供 “真实 
的 ”电路 (例如 一 条 SONET 信道 )。 甚 至 有 一 些 新 型 光 交 换 机 使 用 微型 镜 把 一 台 交 换 机 
端口 的 所 有 光束 偏转 到 另 一 端口 上 ， 这样 就 可 以 产生 一 条 从 点 A 到 点 B 的 不 受 干扰 的 光 
信道 。 这 种 设备 所 使 用 的 技术 称 为 微机 电 系 统 (microelec tromechanical system), 

本 书 不 会 广泛 探讨 光 网 络 ， 一 部 分 是 出 于 篇 幅 的 考虑 。 从 诸多 现实 目的 出 发 ， 可 以 把 
光 网 络 看 成 是 一 个 能 够 让 电话 公司 在 你 需要 的 时 间 和 地 点 提供 SONET 链 路 或 其 他 电路 类 
型 的 基础 设施 。 然 而 ， 有 必要 指出 ， 下 文 讨论 到 的 很 多 技术 ,例如 路 由 协议 和 多 协议 标记 
交换 ， 在 光 网 络 领域 都 有 应 用 。 











中 步 传 给 模式 

异步 传输 模式 (Asgn chronous Transfer Mode, ATM) 几乎 是 最 广为人知 的 基于 虚 
电路 的 网 络 技术 ， 尽 管 由 于 一 些 原 因 现 在 已 经 过 了 部 署 该 网 络 的 高 峰 期 。 由 于 种 种 原因 ， 
ATM 在 20 世纪 80 年 代 和 90 年 代 初 已 成 为 一 种 相当 重要 的 技术 ， 其 中 一 个 原因 是 它 被 电 
话 行业 所 追捧 ， 而 该 行业 历史 上 在 数据 通信 中 并 设 有 那么 活 牙 〈 相 对 于 人 们 构建 网 络 时 选 
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用 的 链 路 提供 方式 而 言 )。 而 当 许 多 计算 机 网 络 用 户 认 为 像 以 太 网 和 令 牌 网 这 种 共享 介质 
网 的 速度 太 慢 时 ，ATM 技术 适时 地 作为 一 种 高 速 交 换 技 术 出 现 了 . 在 某 些 方面 ，ATM 
是 一 种 与 以 太 网 交换 技术 苋 争 的 技术 ， 也 被 看 作 是 一 种 与 IP (网 际 协议 ) 竞争 的 技术 ， 

至 少 有 一 些 因 素 使 得 ATM 技术 看 起 来 是 值得 尝试 的 ， 如 ATM 分 组 格式 ( 主 结构 如 
图 3-6 IIR). 通常 称 为 ATM 信和 元 (ATM cell) 。 该 结构 中 ,我 们 可 以 忽略 没有 作用 的 通 
用 流 控制 (GFC) 位 ， 重 点 从 标志 着 VPI ( 虚 路 径 识 别 符 ，8 位 ) 和 VCI ( 虚 电 路 识别 符 . 
16 位 ) 的 24 位 开始 看 。 如 果 把 这 些 看 作 一 个 24 位 的 字段 ， 那 么 可 以 认为 它们 与 一 个 虚 电 
路 标示 符 相 关联 。 把 该 字段 分 为 两 部 分 的 原因 是 为 了 允许 层级 的 出 现 : 所 有 电路 都 且 有 相 
同 的 VPI， 在 某 些 情况 下 被 视 为 一 个 组 〈 一 个 虚 路 径 ) ， 且 只 根据 VPI 就 能 一 起 进行 交换 . 
从 而 简化 了 交换 过 程 。 这 个 过 程 可 以 忽略 所 有 VCI 位 且 减 小 了 VC 表 的 大 小 。 


4 8 16 3 1 8 384(48 字 节 ) 
GFC VPI | VCI | 类 型 CLP HEC(CRC-8)| 有 效 载 荷 an 


图 3-6 UNIT fy ATM 信 元 格式 


跳 到 最 后 一 个 首部 字 节 ， 我 们 发 现 一 个 8 位 的 循环 元 余 校 检 位 ‘CRC)， 称 为 首部 差错 
校 验 (HEC), ERAT 2.4.3 节 中 给 出 CRC-8 多 项 式 ， 并 提供 了 在 信 元 首部 部 分 进行 错误 
检测 和 单个 位 纠 错 的 能 力 。 保 护 信 元 首部 非常 重要 ， 因 为 VCI 中 的 错误 将 导致 信 元 被 误 投 . 

对 于 ATM 信 元 ,也许 其 最 重要 的 被 称 为 信 元 而 不 是 分 组 的 原因 是 它 仅 有 一 个 大 小 : 
53 字 节 。 这 样 做 的 原因 是 什么 呢 ? 一 个 很 重要 的 原因 是 促进 实施 硬件 数据 交换 。 在 20 Hit 
纪 80 年 代 中 后 期 ATM 刚 创 建 时 ，10Mbps 的 以 太 网 在 速度 方面 采用 了 最 前 沿 的 技术 。 为 
了 更 快速 ， 大 多 数 人 都 从 硬件 上 考虑 ， 而 且 ， 在 电话 行业 ， 人 们 一 想到 交换 机 就 认为 非常 
大 ， 因 为 电话 交换 机 通常 为 成 千 上 万 的 用 户 服务 。 当 你 想 要 建立 一 个 快速 的 大 规模 交换 机 
时 ， 固 定 长 度 分 组 将 会 非常 有 用 。 这 有 两 个 主要 原因 : 

1) 构建 硬件 来 做 简单 的 工作 比较 容易 。 已 知 每 个 分 组 的 长 度 后 .处理 分 组 的 工作 就 
更 为 简单 。 

2) 如 果 所 有 分 组 都 是 相同 的 长 度 ， 那么 可 以 让 多 个 交换 单元 以 并 行 方式 做 同样 的 
事 ， 它 们 中 每 一 个 交换 单元 都 花费 相同 的 时 间 去 完成 自己 的 工作 . 

对 第 二 个 原因 ， 实 施 并 行 方式 极 大 地 提高 了 交换 机 设计 的 可 扩展 性 。 如 果 说 快速 并 行 
硬件 交换 机 只 能 使 用 固定 长 度 分 组 才能 实现 也 许 有 些 过 分 。 但 是 ， 信 元 使 得 构造 这 样 一 种 
硬件 的 工作 变 得 简单 ， 这 是 千 真 万 确 的 ， 并 且 在 定义 ATM 标准 时 ,我 们 已 经 有 了 大 量 如 
何在 硬件 上 构造 信 元 交换 机 的 知识 。 事 实证 明 ， 同样 的 原则 在 今天 仍 被 许多 交换 机 和 路 由 
器 所 采用 ， 即 使 它们 在 处 理 可 变 长 度 的 数据 分 组 ， 也 可 以 将 那些 分 组 切割 为 某 种 用 于 交换 
的 信 元 。 我 们 会 在 3.4 节 中 讨论 。 

决定 使 用 小 的 固定 长 度 分 组 之 后 ， 下 一 个 问题 就 是 应 将 最 合适 的 分 组 长 度 设 为 多 少 ? 
如 果 长 度 太 短 ， 则 在 一 个 信 元 中 携带 的 首部 信息 占 的 比例 较 大 ， 所 以 传输 真正 数据 的 链 路 
带宽 的 比例 下 降 。 甚 至 更 严重 的 是 ， 如 果 建 造 了 一 种 设备 ， 每 秒 可 以 处 理 某 个 最 大 数目 的 
信 元 ， 那 么 当 信 元 变 短 时 ， 总 的 数据 速率 将 随 信 元 长 度 的 减少 而 成 比例 降低 。 以 网 络 适 配 
器 为 例 ， 它 在 把 分 组 传送 到 主机 之 前 把 小 的 信 元 装配 成 更 大 的 单元 ， 这 样 设备 的 性 能 就 直 
接 取决 于 信 元 的 大 小 。 另 一 方面 ， 如 果 信 元 的 尺寸 太 大 ， 为 得 到 一 个 完整 的 信 元 ， 就 需要 
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把 传输 的 数据 填充 成 完整 的 信 元 ， RCE | ai SE YR Oe A To). R TE TE AY Aa fay FE 48 
字 节 而 你 只 想 发 送 1. 那么 还 需 填充 47 字 节 。 如 果 这 种 情况 多 次 发 生 ， 那 么 链 路 的 
利用 率 将 非常 低 。 相 对 较 高 的 首部 载荷 比 以 及 被 部 分 填充 的 信 元 的 发 送 频率 的 确 在 ATM 
网 络 中 会 导致 一 些 明显 的 低 效率 。 这 种 现象 被 反对 者 称 为 信 元 税 (cell tax). 

事实 证 明 ， 选取 48 字 节 的 ATM 信 元 载荷 是 一 种 妥协 。 使 用 更 大 还 是 更 小 的 信 元 引 
起 了 激烈 的 争论 ,但 几乎 没有 人 赞同 48 字 节 ， 因 为 采用 2 的 指数 将 更 有 利于 计算 机 工作 。 


3.1.3 源 路 由 


第 三 种 交换 方法 称 作 源 路 由 ， 这 种 方法 既 不 使 用 虚 电路 也 不 使 用 传统 数据 报 。 这 个 名 
称 来 自 于 由 源 主 机 提供 通过 网 络 交换 分 组 时 所 需 的 全 部 网 络 拓扑 结构 信息 。 

实现 源 路 由 有 多 种 不 同 的 方法 。 一 种 方法 是 给 每 台 交换 机 的 每 个 输出 端口 编号 ， 并 把 
编号 放 和 人 分 组 的 首部 。 那 么 交换 机 的 功能 就 很 简单 : 对 于 到 达 一 个 输入 端口 的 每 个 分 组 ， 
交换 机 读 出 它 的 首部 中 的 端口 号 ， 并 把 分 组 发 送 到 那个 输出 端口 上 。 然 而 ， 由 于 发 送 主机 
和 接收 主机 间 的 路 径 上 一 般 设 有 多 台 交 换 机 ， 分 组 的 首部 需要 包含 足够 的 信息 ， 使 得 路 径 
上 的 每 个 交换 机 都 能 够 确定 该 把 分 组 放置 到 哪个 输出 端口 。 一 种 方法 就 是 在 分 组 首部 放置 
交换 机 端口 的 一 个 有 序列 表 。 该 列表 以 某 种 方式 旋转 ， 使 路 径 上 的 下 一 台 交 换 机 总 是 处 在 
列表 的 首位 。 图 3-7 说 明了 这 个 方法 。 


-b 


: 0 ~ | lo 











主机 B 
图 3-7 交换 网 络 中 的 源 路 由 (交换 机 读 取 最 右边 的 数字 ) 


它们 现在 在 哪 ? 

ATM 

在 20 世纪 80 年 代 末 和 90 年 代 初 的 一 段 时 间 里 ， 很 多 人 认为 ATM 是 准备 接管 这 个 世 
界 的 。 主 流 电 信 公 司 都 支持 它 ， 并 承诺 将 语音 、 视 频 和 数据 高 速 网 络 平滑 整合 到 一 个 通用 
网 络 势 在 必 行 。 他 们 采用 ATM 改变 所 有 使 用 可 变 长 度 分 组 的 网 络 技术 ， 如 把 以 太 网 和 IP 
作为 “遗留 ”技术 。 然 而 今天 以 太 网 和 IP 仍 处 于 主宰 地 位 ,而 ATM 则 已 过 时 。 作 为 一 
种 访问 IP 网 络 的 方式 ， 你 仍然 可 以 找到 很 多 ATM 部 署 方案 。 值 得 注意 的 是 ， 很 多 数字 
用 户 线 (DSL) 接 入 网 络 是 采用 ATM 构建 的 ,所 以 一 定数 量 的 宽带 网 络 接 入 是 基于 
ATM 链 路 的 。 虽 然 这 些 隐藏 在 DSL 调制 解 调 器 之 后 ， 将 以 太 网 帧 封装 到 接 入 网 络 的 信 元 
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当中 ， 

关于 为 什么 ATM 没有 在 世界 上 普及 这 个 问题 仍 在 讨论 。 回 顾 这 个 问题 ， 一 种 基本 的 
重要 因素 是 在 ATM 出 现 的 时 候 ，IP 已经 以 自己 的 方式 完全 确立 了 和 富 固 的 地 位 。 在 20 世 
纪 80 年 代 ， 还 没有 很 多 人 接触 过 因特网 ， 但 IP 已 经 实现 全 球 互联 并 上 且 每 年 连接 的 主机 数 
量 以 两 倍 的 速度 增长 。 因 为 IP 的 核心 是 平滑 连接 各 种 网 络 ， 所 以 当 ATM 出 现时 。 并 没 
有 像 它 的 支持 者 想象 的 那样 取代 IP， 而 是 很 快 被 采纳 为 运行 IJP 的 另 一 种 网 络 类 型 。 因 此 、 
ATM 更 直接 地 面 对 着 以 太 网 的 竞争 而 不 是 IP 的 竞争 。 便 宜 的 以 太 网 交换 技术 和 无 需 昂 贵 
的 光 交 换 机 的 百 兆 以 太 网 捍卫 了 其 作为 主导 局 域 网 技术 的 地 位 。 





在 这 个 例子 中 ， 分 组 需要 经 过 三 台 交 换 机 才能 从 主机 A 到 达 主 机 B。 在 交换 机 1 中 
分 组 从 端口 1 输出 ， 在 下 一 台 交 换 机 中 从 端口 0 输出， 在 第 三 台 交 换 机 中 从 端口 3 输出 
这 样 ， 当 分 组 离开 主机 A 时 ， 首 部 带 有 最 初 的 端口 表 (3，0，1)。 这 里 ， 我 们 假设 每 一 台 
交换 机 读 取 列表 中 最 右 端 的 元 素 。 为 了 确保 下 一 台 交 换 机 能 得 到 正确 的 信息 ， 每 台 交 换 机 
在 读 出 自己 的 记录 之 后 对 列表 进行 旋转 。 这 样 ， 当 有 分 组 离开 交换 机 1 到 达 交 换 机 2 时 ， 
首部 列表 是 (1，3， 0)， 第 二 台 交 换 机 完成 另外 一 次 旋转 ， 送 出 分 组 ， 此 时 其 首部 列表 为 
(0，1，3)。 尽 管 在 图 中 没有 显示 出 来 ， 但 是 交换 机 3 还 要 进行 一 次 旋转 . 把 分 组 的 首部 
列表 恢复 到 最 初 主机 A 发 送 时 的 状态 。 

这 种 方法 还 需要 注意 几 个 问题 。 第 一 ， 它 假设 主机 A 充 分 了 解 网 络 的 拓扑 结构 ， 能 形 
成 分 组 的 首部 信息 ， 其 中 包含 路 径 中 每 一 台 交 换 机 的 所 有 正确 输出 方向 。 这 同 数据 报 网 络 
中 构造 转发 表 的 问题 或 在 虚 电 路 网 络 中 算出 向 哪里 发 出 建立 分 组 的 问题 有 某 些 类 似 之 处 . 
第 二 ， 注 意 我 们 不 能 预测 一 个 分 组 的 首部 需要 多 大 ， 因 为 它 必 须 能 够 为 路 径 上 的 每 台 交 换 
机 保留 一 个 字 的 信息 。 这 就 说 明 分 组 的 首部 长 度 可 能 是 可 变 的 ， 而 且 没 有 上 界 ， 除 非 我 们 
能 确切 地 预测 分 组 需要 通过 的 交换 机 的 最 大 数目 。 第 三 ， 这 个 方法 还 有 一 些 变种 例如， 
每 台 交 换 机 只 是 删 掉 其 首部 列表 的 第 一 个 元 素 . 而 不 是 旋转 首部 信息 .然而 旋转 要 比 删除 
首部 信息 有 利 . 因为 主机 B 可 以 得 到 分 组 首部 的 一 份 完整 副本 .这 有 助 于 主机 B 了解 如 何 
把 数据 回 送 到 主机 A。 男 外 一 个 变种 是 ， 让 分 组 的 首部 带 有 指向 当前 “下 一 个 端口 ”的 指 
针 ， 这 样 每 台 交 换 机 只 需要 更 新 指针 而 不 用 旋转 分 组 的 首部 ,便于 高 效 的 实现 。 我 们 在 图 
3-8 中 说 明 这 三 种 方法 。 在 每 种 情况 下 ， 这 台 交 换 机 需要 读 的 记录 值 是 A， 下 一 人 台 交 换 机 
震 要 读 的 记录 值 是 也。 








E 
» - a y 
Be 
we pel picie] Ptr DCB A| 
a) 旋转 b) 删除 c) 指针 


图 3-8 源 路 由 中 处 理 首部 的 三 种 方法 〈 记 录 值 从 右 向 左 读 ) 


源 路 由 可 以 应 用 在 数据 报 网 络 和 虚 电 路 网 络 中 。 例如， 了 P 协议 是 一 个 数据 报 协议 ， 包 含 
一 个 源 路 由 选项 ， 人 允许 选 定 的 分 组 使 用 源 路 由 选择 ， 而 多 数 情况 采用 传统 的 数据 报 交 换 。 源 
路 由 选择 也 应 用 在 一 些 虚 电 路 网 络 中 ， 用 于 获得 从 源 到 目的 路 径 上 的 初始 建立 请 求 . 

源 路 由 有 时 用 “严格 ”和 “宽松 ”来 分 类 。 在 “严格 ” 源 路 由 中 ， 每 个 沿路 径 的 节点 
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都 必须 声明 ， 而 “宽松 ” 源 路 由 可 以 仅 声明 一 组 要 经 过 的 节点 ， 而 并 不 确切 地 说 明 是 否 沿 
一 个 节点 到 下 一 个 节点 。 宽 松 源 路 由 可 以 理解 为 一 组 路 点 ， 而 不 是 一 个 完整 声明 的 路 径 。 
宽松 选项 有 助 于 减 小 源 用 于 创建 源 路 由 的 信息 量 。 在 一 些 大 型 网 络 中 ， 主 机 很 难得 到 建立 
正确 严格 源 路 由 所 需要 的 到 目的 地 的 完整 路 径 信 息 。 但 两 种 类 型 的 源 路 由 都 可 以 在 一 些 特 
定 环 境 下 得 到 应 用 ，4. 3 节 中 描述 了 一 个 应 用 。 


3.1.4 ”网 桥 和 局 域 网 交换 机 ~ 

在 讨论 过 交换 的 某 些 基本 思想 后 ， 现 在 更 集中 地 讨论 一 些 特殊 的 交换 技术 。 我 们 先 考 
虑 用 于 在 共享 介质 局 域 网 〈 例 如 以 太 网 ) 中 转发 分 组 的 一 类 交换 机 。 这 样 的 交换 机 有 时 通 
称 为 局 域 网 交换 机 ， 历 史上 曾 称 为 网 桥 。 

假设 现 有 两 个 想 要 互联 的 以 太 网 ， 那 么 必须 做 的 第 一 件 事 是 在 它们 之 间 放 一 个 中 继 
a. (RS 2 章 描述 的 那样 。 然 而 ， 当 超出 以 太 网 的 物理 限制 时 ， 这 并 不 是 一 个 有 效 的 解决 
办 法 。( 回 忆 一 下 ， 任 一 对 主机 之 间 最 多 只 能 有 两 个 中 继 器 ， 并 且 总 长 度 不 能 超过 2 500m, ) 
另 一 个 办 法 是 在 两 个 以 太 网 之 间 放 一 个 节点 ， 由 节点 来 转发 从 一 个 以 太 网 到 另 一 个 以 太 网 的 
帧 。 此 节点 处 于 混杂 模式 ， 接 收 从 任意 以 太 网 传 来 的 所 有 帧 ， 并 将 它们 转发 到 另 一 个 以 
太 网 。 

我 们 所 描述 的 节点 通常 称 为 网 桥 〈bridge) ， 由 一 个 或 多 个 网 桥 连接 的 LAN 集合 通常 
称 为 扩展 局 域 网 (extended LAN)。 最 简单 的 一 种 情况 是 ， 网 桥 仅 在 它们 的 输入 端口 上 接 
收 局 域 网 的 帧 并 在 所 有 其 他 输出 端口 上 将 这 些 帧 转发 出 去 。 这 种 简单 的 策略 用 于 早期 的 网 
桥 ， 但 它 一 直 在 改进 ， 使 得 网 桥 成 为 LAN 集合 互联 的 有 效 机 制 。 本 节 其 余部 分 将 加 入 更 
有 趣 的 细节 。 

注意 ， 网 桥 符 合 前 一 节 的 交换 机 定义 : 多 输入 多 输出 设备 ， 能 够 从 一 个 输入 传送 分 组 
给 一 个 或 多 个 输出 。 回 顾 一 下 ， 这 提供 了 一 个 增加 网 络 总 带宽 的 方法 。 例 如 ， 当 单个 以 太 
网 段 能 够 传输 的 总 通信 量 是 100Mbps 时 ， 一 个 以 太 网 网 桥 能 够 传输 100n Mbps, XE n Æ 
网 桥 上 的 端口 〈 答 入 和 输出 ) 数 。 

1. 学 习 型 网 桥 A B C 

注意 ， 网 桥 不 需要 转发 所 有 收 到 的 帧 , 所 E €a E 
以 我 们 可 以 对 网 桥 进行 第 一 项 优化 。 考 虑 图 3-9 | | 
中 的 网 桥 。 从 主机 A 到 主机 B 的 帧 无 论 何 时 到 r : 
达 端 口 1 都 无 需 经 网 桥 转发 给 端口 2。 那么 ， 问 T- yo 
题 是 网 桥 如 何 得 知 各 个 主机 在 哪 一 端口 上 呢 ? | | | 

一 种 选择 是 人 为 地 在 网 桥 内 放置 一 个 类 似 a : 
表 3-4 的 表 。 这 样 ， 无 论 何 时 网 桥 在 端口 1 上 X Y Z 





接收 到 给 主机 A 的 帧 ， 都 不 必 转 发 给 端口 2， 图 3-9 学习 型 网 桥 图 解 


因为 主机 A 可 直接 接收 连接 到 端口 1 上 的 LAN 的 帧 。 任 何 时 候 在 端口 2 收 到 发 往 主机 A 
的 帧 ， 网 桥 都 将 转发 给 端口 1。 
实际 上 没有 人 会 采用 这 种 方式 来 配置 网 桥 ， 人 工 维护 转发 表 是 一 个 相当 大 的 负担 ， 特 





S 参见 “实验 四 ” 
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别 是 考虑 到 网 桥 能 使 用 简单 的 技巧 得 到 这 些 信息 时 。 所 用 方法 的 思想 是 每 个 网 桥 检 查 它 所 
接收 的 帧 的 源 地址 。 这 样 ， 当 主机 A 向 网 桥 任 何 一 边 的 主机 发 送 帧 时 ， 网 桥接 收 到 这 
帧 ， 并 且 记 录 下 从 主机 人 A 来 的 帧 由 端口 1 接收 这 一 事 


实 。 用 这 种 方法 网 桥 可 以 建立 起 如 表 3-4 所 示 的 表 。 = RO RRR 























注意 ， 使 用 这 种 表 的 网 桥 能 使 用 3. 1. 1 节 描述 的 转 E A 
发 数据 报 ( 或 无 连接 ) 模式 。 每 个 分 组 带 有 一 个 全 局 地 E i 
址 ,网 桥 通过 查找 表 中 的 地 址 确定 从 哪个 端口 发 出 c I 
分 组 。 5 : 
网 桥 首 次 启动 时 表 是 空 的 ， 表 中 的 记录 是 随时 间 逐 7 2 


渐 增 加 。 而 且 ， 每 条 记录 都 有 相应 超时 时 间 ， 超 过 一 定 
时 间 ， 网 桥 便 将 其 丢弃 。 这 是 为 了 适应 主机 从 一 个 网 络 移动 到 另 一 个 网 络 时 的 情况 ， 这 
时 其 地 址 也 随 之 发 生 移动 。 因 此 ， 这 张 表 不 需要 包含 全 部 主机 地 址 。 如 果 网 桥接 收 到 一 个 
帧 ， 而 它 要 送 达 的 主机 地 址 不 在 当前 表 中 ,那么 网 桥 会 将 这 一 帧 从 所 有 其 他 端口 转发 出 
去 。 换 言 之 ， 此 表 只 是 可 以 过 滤 掉 一 些 帧 的 简单 优化 ， 而 没有 正确 性 的 要 求 。 

2. 实现 l 

实现 学 习 型 网 桥 算法 的 代码 很 简单 ， 这 里 我 们 简单 描述 一 下 。BridgeEntry 结构 定义 
网 桥 转 发 表 中 的 一 个 记录 ， 它 们 存储 在 一 个 Map 结构 ( 它 支持 mapCreate、mapBind 和 
mapResolve 操作 ) 中 ， 以 便当 表 中 已 存在 的 源 主 机 发 来 的 分 组 到 达 时 .能 够 快速 地 查找 
记录 。 常 量 MAX_TTL 表示 一 个 记录 被 丢弃 前 在 表 中 保存 的 时 间 。 

#define BRIDGE_TAB_SIZE 1024 /* max. size of bridging 

table */ 


define MAX_TTL 120 /* time (in seconds) before 
an entry is flushed */ 


typedef struct | 


MacAddr destination; /* MAC address of a node */ 
int ifnumber; /* interface to reach it */ 
u_short TT Es /* time to live */ 

Binding binding; /* binding in the Map */ 


| BridgeEntry; 


int numEntries = 0; 
Map bridgeMap = mapCreate(BRIDGE_TAB_SIZE, 
sizeof(BridgeEntry)); 

当 一 个 新 的 分 组 到 达 时 更 新 转发 表 的 例 程 由 updateTable 给 出 ， 传 递 的 参数 是 包含 在 
分 组 中 的 源 MAC 地 址 和 接收 分 组 的 接口 号 。 这 里 没有 给 出 会 被 定时 唤醒 的 男 一 个 例 程 ， 
它 扫描 转发 表 中 的 记录 ， 并 减少 每 个 记录 的 TTL (生存 期 ) 字段 的 值 ， 丢 弃 TTL 值 为 0 
的 记录 。 注 意 ， 每 次 分 组 到 达 时 更 新 一 个 已 存在 的 表 记 录 ，TTL 被 重 置 为 MAX _ TTL, 
能 连 到 目标 主机 的 接口 被 更 新 ， 以 反映 最 新 接收 分 组 的 情况 。 

void 

UpdateTable (MacAddr src, int inif) 


{ 
BridgeEntry *b; 
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if (mapResolve(bridgeMap, &src, (void **)&b) == FALSE ) 


x this address is not in the table, so try to add it +/ 
if (numEntries < BRIDGE_TAB_SIZE) 
| 
b = NEW(BridgeEntry); 
b->binding = mapBind( bridgeMap, &src, b); 
/* use source address of packet as dest. address in table */ 
b->destination = src; 


numEntriest++; 


else 
| 
/* can't fit this address in the table now, so give up */ 
return; 
| 
/* reset TTL and use most recent input interface */ 
b->TTL = MAX_TTL; 
b->ifnumber = inif; 


} 


注意 ， 在 网 桥 转发 表 容 量 已 满 的 情况 下 这 个 实现 采用 了 一 种 简单 的 策略 ， 即 添加 新 地 
址 失败 。 回 顾 一 下 ,正确 地 转发 不 要 求 网 桥 表 的 完整 性 ， 它 只 是 用 来 优化 性 能 。 如 果 表 中 
的 某 条 记录 当前 不 被 使 用 ,最终 会 因 超时 而 被 删除 ， 从 而 为 新 记录 膳 出 空间 。 ATE 
是 在 发 现 表 满 时 ， 调 用 某 种 高 速 缓存 蔡 换 算法 。 例 如 ,我 们 可 以 查找 并 删除 具有 最 小 
TTL 值 的 记录 ， 以 便 安 置 新 记录 。 

3. 生成 树 算法 

如 果 扩 展 局 域 网 内 没有 产生 环 ， 那 么 前 面 所 讲 的 策略 是 很 好 的 。 环 的 产生 可 能 造成 帧 
水 远 在 扩展 局 域 网 中 循环 这 种 可 怕 的 故障 。 从 图 3- 10 描述 的 例子 中 容易 看 出 这 种 情况 ， 
例如 ， 网 桥 BI、B4 和 B6 形成 一 个 环 。 假设 一 个 分 组 从 以 太 网 J 进入 网 桥 B4 且 其 目的 地 
并 没有 存在 于 任何 一 个 网 桥 地 址 转发 表 
内 : B4 发 送 一 个 分 组 拷贝 到 H 和 I。 这 
时 网 桥 BO 转发 该 分 组 到 能 被 Bl 看 到 的 
以 太 网 G， 然 后 转发 该 分 组 回 到 以 太 网 
H. B4 的 地 址 表 中 仍然 没有 目标 地 址 ， 
所 以 转发 这 个 包 到 以 太 网 1 和 ]。 没 有 办 
法 能 阻止 双向 连接 的 B1, B4 和 B6 之 间 
无 休止 的 循环 。 

为 什么 扩展 局 域 网 会 有 内 部 循环 ? 
-种 可 能 是 网 络 由 多 位 管理 员 管 理 ， 比 
方 说 ， 因 为 网 络 跨越 一 个 机 构 的 多 个 部 
门 。 在 这 种 情况 下 ， 可 能 没有 人 知道 网 
络 的 整体 配置 ， 这 就 意味 着 可 能 添加 了 
一 个 引起 环 的 网 桥 而 无 人 知道 。 另 一 种 图 3-10 带 环 的 扩展 局 域 网 
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很 可 能 的 情况 是 有 目的 地 在 网 络 中 建立 环 ， 为 网 桥 发 和 后 故障 时 提供 完 余 ， 毕 竞 、 仅 震 要 一 
个 连接 错误 就 能 将 一 个 没有 循环 的 网 络 在 分 裂 成 两 个 独立 的 分 区 ， 

无 论 环 是 怎样 产生 的 .网 桥 必须 能 正确 处 理 环 。 让 网 桥 运行 分 布 式 生成 树 (spanning 
tree) 算法 可 以 解决 这 个 问题 。 如 果 将 扩展 局 域 


网 看 作 有 环 图 ， ae 7 Q Z a p 
点 的 无 环 子 图 。 就 是 说 ， 生 成 树 保留 原 图 的 所 。 ~、 A Y X \O 
有 顶点 ， eh 一 些 边 。 例 如 ,图 3-11a 是 一 ~ 一 人 AN O 
个 有 环 图 ， 图 3-11b 是 可 能 的 多 个 生成 树 中 的 “一 d GO 4 3 
=i © ) 
生成 树 的 想法 很 简单 :在 扩展 网 络 中 ， 网 ssi ois b) 对 应 的 生成 树 
络 拓扑 结构 子 集 没 有 环 路 并 能 到 达 所 有 的 局 域 图 3-11 示例 图 


网 。 难 点 是 所 有 的 网 桥 如 何 协调 决策 并 形成 生成 树 的 单一 视图 。 因 为 通常 一 个 典型 拓扑 是 能 
够 被 多 个 生成 树 拓扑 所 覆盖 的 。 这 个 问题 的 答案 就 在 我 们 现在 正在 讨论 的 生成 树 协议 中 。 

生成 树 算 法 是 由 数字 设备 公司 (DEC) 的 Radia Perlman 开发 的 ,用 于 协调 从 一 组 网 
桥 中 为 某 个 特定 的 扩展 局 域 网 产生 生成 树 的 协议 。 (IEEE 802.1 关于 LAN 网 桥 的 规范 就 
是 基于 此 算法 的 .) 实际 上 ,这 意味 着 每 个 网 桥 将 决定 它 使 用 和 不 使 用 的 转发 帧 的 端口 
从 某 种 意义 上 来 说 ， 通 过 从 扩展 局 域 网 的 拓扑 结构 中 去 掉 一 些 端口 可 使 其 退化 成 一 棵 无 环 
树 。 当 你 看 到 我 们 有 意 在 网 络 中 加 入 环 以 提供 完 余 时 可 能 会 感到 奇怪 ， 因为 有 的 网 桥 可 能 
不 参与 转发 帧 。 然 而 ， 算 法 是 动态 的 ， 这 意味 着 那些 网 桥 随 时 准备 在 某 个 网 桥 出 故障 时 重 
新 配置 以 形成 新 的 生成 树 。 

图 3-12 给 出 对 应 于 图 3-10 中 扩展 局 域 网 的 生成 树 。 在 这 个 例子 中 ，B1l 是 根 网 桥 ， 
为 它 的 标识 符 最 小 。 注 意 B3 和 BS 都 连接 到 LAN A 上 , 但 BS 是 指派 网 桥 ， ADT 
根 更 近 。 类 似 地 ，B5 和 B7 都 连接 到 LAN B 上， 虽然 从 Bl 到 两 个 网 桥 等 距离 ， 但 是 在 这 
种 情况 下 ，B5 由 于 有 较 小 的 标识 符 而 成 为 指派 网 桥 。 

观察 图 3-10 给 出 的 扩展 局 域 网 ， 完 全 可 以 根据 上 面 给 出 的 规则 计算 图 3-12 中 的 生成 
树 ， 然 而 扩展 局 域 网 中 的 网 桥 无 法 看 到 A 
整个 网 络 的 拓扑 结构 ， 更 不 用 说 窥视 其 3 \ i 
他 网 桥 内 部 的 标识 符 了 。 因 此 ， 网 桥 必 OR a 
须 彼此 间 交 换 配置 消息 ， 然 后 根据 这 些 5 © 


消息 确定 它们 是 根 网 桥 或 指派 网 桥 。 O ” | O, 
E 





配置 消息 包含 以 下 三 条 信息 : 

1) 发 送 消 息 的 网 桥 的 标识 符 。 a 

2) 发 送 网 桥 认定 的 根 网 桥 的 标识 符 。 ome 

3) 从 发 送 网 桥 到 根 网 桥 的 按 跳 数 度 JOs 
量 的 距离 。 c a a H 

每 个 网 桥 记 下 在 它 的 每 个 端口 上 看 `L 
到 的 当前 最 优 (best) (“最 优 ” 将 在 下 面 (86) (B4 
定义 ) 配置 消息 ， 包 括 从 其 他 网 桥接 收 
的 和 它 自己 发 送 的 消息 ， 

最 初 ， 每 个 网 桥 认 为 自己 是 根 ， 并 图 3-12 某 些 端口 不 被 选择 的 生成 树 
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从 每 个 端口 发 出 配置 消息 ， 标 识 自己 是 根 并 给 出 到 根 的 距离 为 0。 网 桥 在 某 个 端口 接收 到 
配置 消息 后 ， 就 检查 这 个 新 消息 是 否 优 于 该 端口 记录 的 配置 消息 。 如 果 满 足以 下 条 件 ， 则 
认为 新 配置 消息 优 于 (better) 当前 记录 的 消息 。 

。 标识 一 个 具有 更 小 标识 符 的 根 。 

。 标识 一 个 带 有 相同 标识 符 但 具有 更 短 距离 的 根 。 

© 根 标识 符 和 距离 都 相等 ， 但 发 送 这 条 消息 的 网 桥 具 有 更 小 的 标识 符 。 

如 果 新 消息 优 于 当前 记录 的 消息 ， 网 桥 则 丢弃 旧 消 息 并 保存 新 消息 。 然 而 ， 它 首先 将 
到 根 的 距离 字段 加 1， 因 为 这 个 网 桥 到 根 的 距离 比 发 送 消息 的 网 桥 到 根 的 距离 远 一 跳 。 

当 一 个 网 桥接 收 到 说 明 自 身 不 是 根 网 桥 的 配置 消息 时 ( 即 收 到 来 自 一 个 有 更 小 标识 条 
的 网 桥 的 消息 )， 网 桥 终止 生成 自己 的 配置 消息 ， 而 是 先 对 来 自 其 他 网 桥 的 配置 消息 中 的 
距离 字段 加 1， 然 后 转发 。 类 似 地 ， 当 一 个 网 桥接 收 到 说 明 自 身 不 是 某 端口 的 指派 网 桥 的 
配置 消息 时 ( 即 配 置 消 息 来 自 与 根 的 距离 更 近 或 等 于 自己 与 根 的 距离 但 具有 更 小 标识 符 的 
Mir). 网 桥 停止 在 该 端口 发 送 配 置 消息 。 这样 。 当 系统 稳定 时 ， 只 有 根 网 桥 仍 然 产 生 配 
置 消息 ， 而 其 余 网 桥 仅 在 那些 是 指派 网 桥 的 端口 上 转发 这 些 消 息 。 从 这 点 上 说 ， 一 个 生成 
树 建立 后 . 所 有 网 桥 需 要 为 生成 树 协调 其 使 用 的 端口 ， 只 有 这 些 端口 才能 在 扩展 网 络 里 转 
发 数据 分 组 。 

F 面 来 看 一 个 网 桥 配置 的 实例 。 假 设 某 网 络 所 在 大 楼 的 电源 刚刚 恢复 ， 所 有 网 桥 大 的 
在 同一 时 间 启 动 ， 考 虑 在 图 3-12 中 会 发 生 什 么 。 所 有 网 桥 将 开始 发 出 自己 是 根 的 消息 。 
我 们 将 一 个 来 自 节点 XX、 与 根 节点 Y 的 距离 是 a 的 配置 消息 表示 为 Y. d, X), UWA 
B3 的 活动 为 例 ， 一 系列 事件 将 如 下 展开 : 

1) B3 f¥ue (B2, 0, B2). 

2) 因为 2 二 3， 所 以 B3 接受 B2 为 根 。 

3) B3 将 B2 通知 的 距离 (0) 加 1， 并 发 送 (B2. 1. B3) 给 B5. 

D 同时 ， 因为 Bl 具有 更 小 的 标识 符 ， 所 以 ，B2 接受 Bl 为 根 ， 并 发 送 (B1，1， 
B2) #4 B3. 

5) BS 接受 Bl 为 根 并 发 送 (Bl. 1. BS) 给 B3. 

6) B3 接受 Bl AAR, He FAB B2 和 BS 都 比 它 距 离 根 近 ， 因 此 B3 停止 在 这 两 个 端 
口上 转发 消息 。 

这 使 B3 带 有 两 个 未 被 选择 的 端口 ， 如 图 3-12 所 示 。 

即使 系统 稳定 后 ， 根 网 桥 还 会 继续 定期 发 送 配 置 消息 ， 其 余 网 桥 继续 像 前 面 描述 的 那 
样 转发 这 些 消 息 。 如 果 某 个 网 桥 出 现 故障 ， 下 游 的 网 桥 将 不 能 接收 到 这 些 配 置 消息 ， 在 等 
待 一 个 指定 的 时 间 段 后 ， 它 们 会 重新 宣布 自己 是 根 ， 刚 才 描 述 的 算法 会 再 选 一 个 新 的 根 和 
新 的 指派 网 桥 。 

需要 注意 的 一 件 重 要 的 事情 是 ， 虽 然 无 论 何 时 某 个 网 桥 出 错 ， 算 法 都 能 重新 构造 生成 
树 ， 但 是 不 能 为 了 绕 开 拥塞 网 桥 而 选择 另 一 条 路 径 来 转发 帧 。 

4. 广播 和 多 播 l 

之 前 讨论 的 重点 是 网 桥 如 何 从 一 个 LAN 转发 单 播 帧 到 另 一 个 LAN。 由 于 网 桥 的 目标 
是 透明 地 扩展 局 域 网 ， 并 且 由 于 大 多 数 LAN 邦 支 持 广 播 和 多 播 ， 因 此 网 桥 也 必须 支持 这 
两 个 特性 ,广播 比较 简单 ， 每 个 网 桥 将 带 有 目标 广播 地 址 的 帧 转发 到 除了 接收 它 的 端口 以 
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外 的 其 他 活动 (选择 ) 端口 。 

多 播 可 以 按 同 样 的 方法 实现 ， 每 台 主 机 自己 决定 是 否 接 收 消息 。 实际 应 用 中 就 是 这 样 
做 的 。 然 而 ， 在 扩展 局 域 网 中 ， 并 不 是 所 有 LAN 都 必须 有 一 台 作 为 某 多 播 组 成 员 的 主机 ， 
因此 情况 可 能 会 更 好 。 特 别 是 ， 可 以 扩展 生成 树 算 法 来 删除 那些 不 震 要 转发 多 播 帧 的 网 
络 。 考 查 帧 由 图 3-12 中 LAN A 的 一 台 主 机 发 往 一 个 组 M。 如果 LAN J 中 的 主机 都 不 属 
于 组 M， 那 么 网 桥 B4 就 没有 必要 在 网 络 上 转发 帧 。 另 一 方面 ， 虽 然 LAN H RE E 
机 都 不 属于 组 M, 但 这 并 不 意味 着 网 桥 Bl 不 转发 多 播 帧 到 LAN H. 这 取决 于 在 LAN I 
和 LAN J 中 是 否 有 组 M 的 成 员 。 

网 桥 如 何 知道 是 否 需 要 通过 某 个 给 定 的 端口 转发 多 播 帧 ?网 桥 是 通过 观察 从 该 端口 接 
收 到 的 源 Csource) 地 址 得 知 的 ， 这 与 网 桥 如 何 决定 是 否 通过 某 个 特定 端口 转发 一 个 单 播 
帧 的 方法 一 样 。 当 然 ， 组 通常 不 是 帧 的 源 ， 所 以 我 们 的 说 法 有 点 不 有 要。 特别 地 ,组 M 的 
每 个 成 员 主 机 都 必须 定时 发 送 一 个 帧 ， 在 首部 的 源 字段 中 携带 组 M 的 地 址 。 这 个 帧 的 目 
标 地 址 就 是 网 桥 的 多 播 地 址 。 

注意 ， 以 上 描述 的 多 播 扩展 方法 虽然 已 经 提出 ， 但 还 没有 广泛 采纳 。 而 且 ， 在 今天 的 
扩展 局 域 网 上 ， 多 播 与 广播 的 实现 方法 是 完全 一 样 的 。 

5. 网 桥 的 局 限 性 

以 上 描述 的 基于 网 桥 的 解决 方案 只 能 用 于 一 种 非常 有 限 的 环境 : 连接 少数 相似 的 
LAN。 当 我 们 考虑 到 可 扩展 性 和 异 构 性 问题 时 ， 这 种 局 限 性 就 变 得 很 明显 。 

在 可 扩展 性 问题 上 ， 用 网 桥 连 接 过 多 的 LAN 是 不 现实 的 一般 情 况 下 不 多 于 几 十 个 . 
一 个 原因 是 生成 树 算法 是 线性 扩展 的 ， 即 没有 为 扩展 局 域 网 提供 分 层 结构 。 另 一 个 原因 是 
网 桥 转发 所 有 的 广播 帧 。 虽 然 在 一 种 受 限制 的 环境 (如 一 个 部 门 ) 下 ， 对 所 有 主机 来 说 看 
到 相互 的 广播 消息 是 合理 的 ,但 一 个 更 大 范围 (如 一 个 大 公司 或 一 所 大 学 ) 内 的 所 有 主机 
不 可 能 都 愿意 受到 相互 广播 消息 的 打扰 。 换 言 之 ,广播 的 规模 不 能 太 大 ， 因 此 扩展 局 域 网 
的 规模 不 能 太 大 。 

增强 扩展 局 域 网 的 可 扩展 性 的 一 种 方法 是 虚拟 LAN (Virtual LAN, VLAN). 
VLAN 允许 将 一 个 扩展 局 域 网 划分 成 几 个 看 起 来 独立 的 LAN， 给 每 个 VLAN 研一 个 标 
识 符 (有 时 称 为 颜色 (color)), 而且 只 有 当 两 个 网 段 有 相同 的 标识 符 时 ， 分 组 才能 从 一 
个 网 段 传送 到 另 一 个 网 段 。 这 样 可 以 限制 接收 任何 给 定 广播 分 组 的 扩展 局 域 网 上 的 网 段 
数目 。 

我 们 通过 例子 来 看 VLAN 是 怎样 工作 的 。 图 3-13 给 出 在 4 个 不 同 LAN 网 段 上 的 4 
台 主 机 。 在 没有 VLAN 的 情况 下 ,来 自任 何 主 机 的 广播 分 组 将 到 达 所 有 其 他 主机 。 现 在 
我 们 假设 把 连接 到 主机 W 和 主机 X 的 网 段 定义 为 一 个 VLAN、 称 为 VLAN 100。 我们 还 





定义 连接 到 主机 Y 和 Z 的 网 段 为 VLAN 200。 这 wi EJ 

样 做 时 ， 我 们 需要 给 网 桥 BI 和 B2 的 每 个 端口 配 pa L 

置 一 个 VLAN 标识 符 。 我 们 认为 在 两 个 VLAN VANO 全 和 

中 都 包括 Bl 到 B2 的 链 路 。 VLAN200 | 一 2 VLAN 200 
当主 机 X 发 送 的 分 组 到 达 网 桥 B2 时 ， 网 桥 i 

观察 到 它 来 自 配 置 为 VLAN 100 的 一 个 端口 。 它 LY E 


在 以 太 网 的 首部 和 有 效 载荷 之 间 插 人 一 个 VLAN 图 3-13 两 个 虚拟 局 域 网 共享 一 个 主干 
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首部 。 我 们 感 兴趣 的 VLAN 首部 部 分 是 VLAN 标识 符 ; 此 时 . 这 个 标识 符 设置 为 100。 网 
桥 现 在 按 正 常规 则 转发 分 组 .附加 的 限制 是 这 个 分 组 不 能 发 送 给 不 属于 VLAN 100 的 接口 。 
这 样 .分 组 决 不 会 发 送 到 VLAN 200 中 连接 主机 Z 的 接口 上 ， 即 使 是 一 个 广播 分 组 。 但 是 ， 
分 组 被 转发 到 网 桥 Bl1， 按照 同样 的 规则 ，B1 可 以 转发 分 组 给 主机 W， 但 不 转发 给 主机 Y。 

VLAN 的 一 个 有 吸引 力 的 特性 是 它 能 更 改 网 络 的 多 辑 拓扑 结构 ， 而 不 用 移动 任何 线路 
或 更 改 任 何 地 址 。 例 如 ， 如 果 想 使 连接 到 主机 2Z 的 网 段 成 为 VLAN 100 的 一 部 分 ， 并 由 此 
使 X、W 和 Z 在 同一 个 虚拟 LAN E. 那么 我 们 只 需 更 改 网 桥 B2 的 一 条 配置 信息 。 

在 异 构 性 问题 上 ， 网 桥 完 全 受 限 于 它们 能 够 互联 的 网 络 的 类 型 。 特 别 是 ， 网 桥 使 用 网 
络 帧 的 首部 ， 因 此 只 能 支持 那些 地 址 格式 相同 的 网 络 。 这 样 ， 网 桥 可 以 用 来 连接 以 太 网 与 
以 太 网 、 今 牌 网 与 令 牌 网 以 及 802. 11 与 男 一 个 802.11 网 络 。 因 为 都 支持 相同 的 48 比特 
地 址 格式 ， 所 以 一 个 以 太 网 与 802.11 网 络 之 间 就 有 了 建立 桥接 的 可 能 。 然 而 ， 网 桥 不 易 
推广 到 其 他 类 型 的 网 络 ， ATM. 

尽管 有 这 些 局 限 性 但 网 桥 仍 然 是 整个 网 络 中 很 重要 的 一 部 分 。 它 的 主要 优点 是 允许 
多 个 LAN 彼此 透明 地 连接 ， 就 是 说 ， 网 络 可 以 连接 起 来 而 并 不 需要 在 终端 主机 上 运行 任 
何 另外 的 协议 (或 者 即使 意识 到 需要 这 样 做 )。 当 主机 希望 在 一 个 多 点 播送 组 中 宣布 它们 
的 成 员 关 系 时 可 能 存在 一 个 潜在 的 异常 ， 如 3. 1.4 节 所 描述 的 情况 。 

然而 ,这 种 透明 性 可 能 是 有 危险 的 。 如 果 一 台 主 机 (或 更 准确 地 说 主机 上 运行 的 应 用 
程序 和 传输 协议 ) 是 在 运行 于 单一 LAN 的 假设 下 编程 的 .那么 di 
插入 网 桥 可 能 会 出 现 意 想 不 到 的 事 。 例 如 ， 如 果 一 个 网 桥 拥 塞 ， 它 可 能 不 得 不 丢弃 帧 , 
单一 以 太 网 丢弃 帧 的 情况 是 很 少见 的 。 又 如 ,扩展 局 域 网 中 任 一 对 主机 之 间 的 时 延 ae 
大 且 高 度 可 变 ， 而 单一 以 太 网 的 物理 局 限 性 使 得 时 延 很 小 且 可 预知 。 作 为 最 后 的 例子 ， 在 
一 个 扩展 局 域 网 中 对 帧 重 排 序 是 可 能 的 (尽管 可 能 性 不 大 )， 而 在 单一 以 太 网 中 帧 的 顺序 
是 不 会 搅乱 的 。 结 论 是 在 运行 于 单一 以 太 网 段 的 假设 下 设计 网 络 软 件 绝 不 会 是 安全 的 。 网 
桥 就 是 这 种 情况 .= 


3.2 互联 网 基础 (IP) 

在 前 一 芋 中 ,我们 看 到 可 以 使 用 网 桥 和 局 域 网 交换 机 建造 相当 大 型 的 局 域 网 ， 但 是 这 
些 方法 在 扩展 和 处 理 异 构 问 题 上 有 局 限 性 。 本 曹 将 探索 克服 桥接 网 络 局限 性 的 方法 ， 使 得 
我 们 能 够 使 用 相当 有 效 的 路 由 建造 大 型 的 和 高 度 异 构 的 网 络 。 我 们 称 这 样 的 网 络 为 互联 网 
(internetwork)。 在 下 一 草 里 ,我们 将 继续 讨论 如 何 构建 一 个 真正 的 全 局 互联 网 。 当 前 ， 
我 们 先 了 解 一 些 基础 知识 。 首 先 认 真 考虑 一 下 互联 网 一 词 的 含义 。 


3.2.1 什么 是 互联 网 ? 


我 们 用 带 小 写 “i” 的 “internetwork” 或 仅 用 “internet” 指 可 提供 某 种 主机 到 主机 的 
分 组 传送 服务 的 相互 连接 的 任意 网 络 集合 。 例 如 ， 一 个 有 很 多 站 点 的 公司 可 以 租用 电话 公 
司 的 点 到 点 链 路 将 其 不 同 站 点 的 LAN 互联 成 一 ne 的 互联 网 。 当 谈论 应 用 广泛 的 目前 
已 连接 大 部 分 网 络 的 全 球 互联 网 时 ,我们 用 带 大 写 “I” 的 “Internet” 来 称呼 它 。 本 书 一 
BERERE, ARDE ZAR T fie “internet” W, (EJH “Internet” PH 





日 ”参见 “实验 五 ”. 
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实例 来 阐明 这 些 思想 。 

“网 络 ”““ 子 网 ”和 “互联 网 ”是 几 个 易 混 消 的 术语 。 在 3.2.5 节 以 前 ,我 们 不 谈 子 

网 。 现 在 ， 我 们 用 网 络 (network) 来 指 前 两 童 讨论 的 直接 相连 的 网 络 或 交换 网 络 . 这 样 

的 网 络 只 使 用 一 种 技术 ， 如 802.5、 以 太 网 或 ATM。 互 联网 (internetwork) 是 这 些 网 络 
互联 的 集合 。 有 时 ， 为 了 避免 意义 不 明确 ,我 们 把 互联 的 底层 网 络 称 为 物理 (physical) 
网 络 。 互 联网 是 由 物理 网 络 集 合 构成 的 逻辑 (logical) 网 络 。 在 这 种 情况 下 ， 仍 然 可 以 将 
由 网 桥 或 交换 机 相连 的 以 太 网 集合 看 成 一 个 单一 的 网 络 。 

图 3-14 给 出 了 一 个 互联 网 的 例子 。 互 联网 通常 称 为 “网 际 网 ”因为 它 是 由 很 多 更 小 
的 网 络 组 成 的 。 此 图 中 ,我们 可 以 看 到 以 太 网 、FDDI 环 和 点 到 点 链 路 。 这些 网 络 中 的 每 
个 网 络 采用 的 都 是 单一 技术 。 将 这 些 网 络 互 联 的 节点 称 为 路 由 器 (router). 有 时 也 称 为 网 
关 (gateway), 但 由 于 这 个 词 还 有 其 他 含义 ， 所 以 我 们 只 使 用 路 由 器 。 


网 络 4 ( 以 太 网 ) 


H1 H2 Be. | | | 
ror z sai i l 
| | Hg H9 
网 络 2 r 
WAR) L a 


= eS meas 


R2 (SAA) 


Ar €& 

n ay oO aj x7 
us Ag E 16 
网 络 1 
( 无线 ) 


图 3-14 一 个 简单 的 互联 网 ，H,= 主 机 ，R, 王 路 由 器 


网 际 协议 UP) 是 我 们 现今 用 来 建造 可 扩展 的 异 构 互 联网 络 的 关键 工具 。 它 最 早 以 
其 发 明 者 的 名 字 命 名 为 Kahn-Cerf 协议 .9 可 以 认为 IP 运行 于 网 络 集合 的 所 有 节点 CE 
机 和 路 由 器 ) ， 并 定义 一 种 基础 结构 ， 使 这 些 节点 和 网 络 具 备 一 个 逻辑 互联 网 的 功能 。 
例如 ， 图 3-15 给 出 了 图 3-14 中 的 主机 H5 和 H8 是 如 何 通过 互联 网 逻辑 相连 的 ， 包 含 
每 个 节点 上 运行 的 协议 图 。 注 意 ，TCP 和 UDP 等 高 层 协 议 通 常 运行 在 主机 的 IJP 之 上 。 

本 章 其 余 大 部 分 将 介绍 有 关 IP 的 各 个 方面 。 当 然 ， 建造 互联 网 也 可 以 不 使 用 IP， 例 
如 ，Novell 创建 的 互联 网 协议 称 为 IPX， 它 的 基础 是 施乐 公司 设计 的 XNS 互联 网 。 然 而 
因特网 的 规模 使 IP 成 为 最 重要 的 协议 ， 或 者 说 ， 只 有 IP 因特网 是 真正 面 对 可 扩展 性 问题 
的 。 因 此 ， 它 为 研究 可 扩展 的 互联 网 协议 提供 了 最 好 的 实例 。 
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TE SEN | 
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802.11 802.11) eru | ETH | por | | por | em | ETH 
图 3-15 一 个 简单 的 互联 网 ， 说 明 用 于 连接 图 3-14 中 的 HS 和 H8 的 协议 层 。 
ETH 是 运行 在 以 太 网 上 的 协议 
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3.2.2 服务 模型 


建造 互联 网 时 最 好 先 定义 服务 模型 (service model). ， 即 想 要 提供 的 主机 到 主机 的 服 
务 。 为 互联 网 定义 服务 模型 时 主要 关心 的 问题 是 : 只 有 当 每 个 底层 物理 网 络 都 能 提供 一 种 
主机 到 主机 的 服务 时 ， 我 们 才能 提供 这 种 服务 。 例 如 ， 如 果 底 层 网 络 技术 可 能 随意 延迟 分 
组 ,那么 互联 网 服务 模型 就 不 能 保证 在 lms 之 内 传送 每 个 分 组 。 因 此 .定义 IP 服务 模型 
的 原则 是 使 它 的 要 求 尽量 少 ， 在 互联 网 中 出 现 的 任何 技术 都 能 提供 必要 的 服务 。 

可 将 IP 服务 模型 看 成 两 部 分 : 一 是 编 址 方案 提供 标识 互联 网 中 所 有 主机 的 方法 ; 
二 是 传送 数据 的 数据 报 ( 无 连接 的 ) 模型 。 这 种 服务 模型 有 时 也 称 为 尽力 (best-effort) 
服务 模型 ， 这 是 因为 尽管 IP 尽力 传送 数据 报 ， 但 并 不 提供 保证 。 我 们 推 后 编 址 方案 的 讨 
论 ， 先 来 看 数据 传送 模型 。 

1. 数据 报 传送 

IP 数据 报 是 TP 的 基础 。3.1.1 节 中 已 经 提 到 ， 数 据 报 是 一 种 在 网 络 中 以 无 连接 方式 
发 送 的 分 组 类 型 。 每 个 数据 报 携带 足够 的 信息 以 使 网 络 将 分 组 传送 到 正确 的 目的 地 ， 不 需 
要 预先 建立 任何 机 制 来 告诉 网 络 当 分 组 到 达 时 该 怎么 做 。 你 只 需 发 送 它 ， 网 络 就 会 尽力 把 
它 送 到 所 和 希望 到 达 的 目的 地 。 “尽力 ”服务 的 意思 是 : 如 果 出 现 错误 和 分 组 丢失 、 损 坏 、 
误 传送 或 因 任 何 原因 而 没有 到 达 目 的 地 ， 网 络 什么 也 不 做 它 已 经 尽 了 最 大 努力 ， 这 就 
是 它 必 须 做 的 全 部 事情 ， 而 不 采取 从 故障 中 恢复 的 任何 行动 。 有 时 也 将 这 种 服务 称 为 不 可 
4é (unreliable) 服务 。 

尽力 的 、 无 连接 的 服务 大 概 是 你 能 从 互联 网 中 得 到 的 最 简单 的 服务 ， 并 且 这 是 很 有 用 
的 服务 。 例 如 ， 如 果 你 在 一 个 提供 可 靠 服 务 的 网 络 上 提供 尽力 服务 ， 那 么 很 好 ， 你 最 终 得 
到 的 尽力 服务 正好 是 总 能 传送 分 组 的 服务 。 反 之 ， 如 果 你 在 一 个 不 可 靠 的 网 络 上 采用 一 个 
可 靠 的 服务 模型 ， 那 么 你 将 不 得 不 把 很 多 额外 的 功能 置 于 路 由 器 上 以 弥补 底层 网 络 的 不 
足 。 尽 可 能 使 路 由 占 保 持 简单 是 TP 最 初 的 设计 目标 之 一 。 

IP“ 在 任何 技术 上 运行 ”的 能 力 经 常 被 引述 为 其 最 重要 的 特性 之 一 。 值 得 注意 的 是 ， 
在 发 明 IP HT, ME IP 赖 以 运行 的 很 多 技术 还 不 存在 。 迄 今 ， 人 们 发 明 的 所 有 网 络 技术 对 
IP 来 说 都 具备 一 定 的 适应 度 ， 甚 至 有 人 声称 IP 可 以 运行 在 由 信和 铝 传 输 消息 的 网 络 上 ， 

尽力 传送 不 仅仅 意味 着 分 组 可 能 丢失 。 有 时 分 组 可 能 不 按 顺序 传送 ， 或 者 同一 分 组 可 
能 会 传送 不 止 一 次 。 运 行 在 IP 之 上 的 高 层 协议 或 应 用 需要 知道 所 有 可 能 的 错误 模式 。 
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2. 分 组 格式 
显然 ，IP 服务 模型 的 一 个 关键 部 分 是 可 携带 的 分 组 类 型 。 像 大 多 数 分 组 一 样 ，IP 数 
据 报 包含 一 个 首部 ， 后面 接着 许多 字 节 的 数据 。 首 部 的 格式 如 图 3- 16 ras. TERE. 我 们 


采用 与 前 面 几 童 不 同 的 形式 来 表示 分 组 ， 这 是 因为 后 面 几 音 在 我 们 主要 关注 的 互联 网 层 及 
其 上 各 层 中 ,分 组 格式 几乎 都 设计 为 按 32 0 4 g 6 D ài 
位 边界 对 齐 ， 以 简化 软件 对 它们 的 处 理 任 | 版 本 首部 长 度 服 务 类 型 长度 o 
务 。 因 此 ， 一 般 表示 方法 (例如 ， 用 于 因 特 标识 bids Wh 
网 RFC) 就 是 将 它们 按 32 位 字 的 序列 取出 。 ”生存 期 ”协议 校 验 和 
顶部 的 字 先 被 传送 ， 并 且 每 个 字 最 左边 的 字 | 源 地 址 
节 先 被 传送 。 在 这 种 表示 方法 中 ， 可 以 很 容 er 
易 地 识别 出 8 位 倍 长 的 字段 。 特 殊 情况 下 ， anes NE 
= TA pp. = pe eed CEK) 
如 果 字段 长 度 不 是 8 位 的 偶数 倍 ， 还 可 以 通 
过 查看 分 组 顶部 标 出 的 比特 位 置 来 确定 字段 
的 长 度 。 
查看 IP 首部 的 每 个 字段 , ,我们 发 现 尽 ”一 一 一 一 一 
力 数据 报 传送 的 “简单 ”模式 还 有 一 些微 妙 人 


的 特性 。Version (版 本 ) 字段 说 明 IP 的 版 本 。 当 前 IP 的 版 本 是 4， 有 时 称 为 IPv4。 注意 
将 这 个 字段 置 于 数据 报 的 开头 会 易于 我 们 在 后 续 版 本 中 重新 定义 分 组 格式 的 其 余部 分 。 首 
部 处 理 软件 从 查看 版 本 开始 ， 然 后 根据 相应 的 格式 分 别处 理 分 组 的 其 余部 分 。 下 一 个 字段 
HLen (首部 长 度 ) 以 32 位 字 为 单位 指定 首部 的 长 度 。 在 没有 其 他 选项 的 时 候 ， 首部 通常 
是 5 个 字 长 (20 字 节 )。8 位 的 TOS (服务 类 型 ) 字段 多 年 来 有 过 很 多 不 同 的 定义 . (HE 
的 基本 功能 是 允许 根据 不 同 的 应 用 需求 对 分 组 进行 不 同 的 处 理 ， 例如 .TOS 值 可 决定 分 
组 是 否 应 放 在 一 个 特殊 的 接受 低 延 迟 的 队列 中 。 我 们 将 在 6.4.2 节 及 6.5.3 节 中 更 详细 地 
讨论 这 个 字段 的 使 用 (和 它 的 新 名 字 )。 

首部 中 接 下 来 的 16 位 是 数据 报 的 Length (长 度 ) FRE. 包括 首部 在 内 的 长 度 。 不同 
于 HLen 字段 ，Length 字段 计 字 节 数 而 不 是 字数 。 因 此 ，IP 数据 报 的 最 大 八 寸 为 65 535 
字 节 。 然 而 ，IP 运行 的 物理 网 络 可 能 不 支持 如 此 长 的 分 组 。 因 此，IP 支持 分 片 和 重组 . 
首部 的 第 二 个 字 包 含 分 片 信息 ， 它 的 使 用 细节 将 在 下 面 的 “分 片 和 重组 ”中 谈 到 ， 

在 首部 的 第 三 个 字 中 ， 第 一 个 字 节 是 生存 期 TTL 字段 。 这 个 名 字 反 映 了 它 的 历史 含义 
而 不 是 现在 的 使 用 方式 。 此 字段 的 目的 是 捕捉 在 路 由 环 路 中 转 来 转 去 的 分 组 并 丢弃 它们 ， 而 
不 是 让 它们 无 限 地 消耗 资源 。 最 初 ，TTL 被 设置 为 允许 分 组 生存 的 一 个 指定 的 秒 数 . 沿途 的 
路 由 器 将 减 小 这 个 字段 值 直到 为 0。 然 而， 由 于 分 组 在 路 由 器 中 的 等 待 时 间 很 少 能 达到 1 秒 
钟 ， 并 且 路 由 器 不 是 总 能 访问 到 一 个 公共 时 钟 ， 因 此 大 多 数 路 由 器 都 是 在 转发 分 组 时 将 TTL 
字段 值 减 1。 这 样 ， 它 就 变 成 按 跳 计数 而 不 是 一 个 计时 器 这 也 是 捕 提 陷入 路 由 循环 的 分 组 
的 一 个 绝 好 的 方法 。 一 个 细节 是 发 送 主机 对 此 字段 的 初始 设置 : 设置 太 高 ， 分 组 就 会 在 被 于 
弃 前 转 很 多 圈 ; 设置 太 低 ， 分 组 又 可 能 无 法 到 达 目 的 地 。64 是 当前 的 默认 值 ， 

Protocol (协议 ) 字段 只 是 一 个 多 路 分 解 键 ， 用 于 标识 IP 分 组 应 被 送 至 的 高 层 协议 。 
已 定义 了 值 的 协议 有 TCP (传输 控制 协议 -6)、UDP (用 户 数 据 报 协 议 - 17) 以 及 很 多 在 
协议 图 中 位 于 IP 之 上 的 其 他 协议 。 
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Checksum ( 校 验 和 ) 字段 通过 将 整个 IP 首部 看 作 一 个 16 位 字 的 序列 进行 计算 ， 使 
用 二 进 制 反 码 相 加 .并 对 结果 取 反 码 。 这 就 是 2.4 节 中 描述 的 IP 校 验 和 算法 。 因 此 ， 如 
果 首 部 的 任 一 比特 在 传输 中 被 损坏 ， 那 么 收 到 分 组 的 校 验 和 将 包含 不 正确 的 值 。 由 于 一 个 
被 损坏 的 首部 可 能 在 目的 地 址 中 包含 错误 (因此 可 能 导致 错误 传送 )， 因 此 应 当 丢 弃 校 验 
和 值 不 正确 的 分 组 。 需 要 注意 ， 校 验 和 并 不 具备 像 CRC 那么 强 的 检 错 能 力 ， 但 是 它 在 软 
件 中 很 容易 计算 . 

首部 所 需 的 最 后 两 个 字段 是 分 组 的 SourceAddr ( 源 地 址 ) 和 DestinationAddr (目的 
地 址 ) 。 后 者 是 数据 报 传送 的 关键 : 每 个 分 组 包含 一 个 完整 的 目的 地 址 ， 所 以 每 台 路 由 器 
能 够 做 出 转发 决定 。 接 收 方 根据 源 地 址 决定 是 否 接收 分 组 并 做 出 应 答 。IP 地 址 在 3. 2. 3 节 
中 讨论 ， 现在 重要 的 是 要 知道 IP 定义 自己 的 全 局 地 址 空间 ， 不 依赖 于 在 何 种 物理 网 络 上 
运行 。 正 如 我 们 将 看 到 的 ， 这 是 支持 异 构 性 的 关键 之 一 。 

最 后 . 在 首部 的 后 端 有 多 个 选项 。 是 否 出 现 这 些 选 项 可 通过 检查 HLen (首部 长 度 ) 
字段 确定 。 尽 管 选 项 很 少 被 用 到 ， 但 一 个 完整 的 IP 实现 必须 能 处 理 所 有 选项 。 

3. 分 片 和 重组 

在 一 个 异 构 的 网 络 集合 中 ， 提 供 统 一 的 主机 到 主机 服务 模型 需要 面 对 的 问题 之 一 是 每 
种 网 络 技术 都 试图 自己 定义 分 组 的 大 小 。 例 如 ， 以 太 网 能 接收 最 大 长 度 为 1 500 字 节 的 分 
组 ， 而 FDDI 分 组 最 长 可 达 4 500 字 节 。 这 就 留 给 IP 服务 模型 两 种 选择 : 确保 所 有 IP 数 
据 报 足 够 小 ,使 其 能 适合 任何 网 络 技术 的 分 组 ;或 者 当 IP 数据 报 对 某 一 网 络 技术 来 说 太 
大 时 ， 提供 一 种 方法 将 分 组 分 片 和 重组 。 后 一 种 方法 较 好 ， 特 别 是 考虑 到 新 的 网 络 技术 将 
不 断 出 现 ， 而 IP 需要 在 所 有 技术 上 和 运行， 这 使 得 选择 一 个 合适 的 小 范围 数据 报 尺寸 变 得 
困难 。 这 也 就 意味 着 主机 没有 必要 发 送 小 分 组 ， 因 为 这 将 使 被 发 送 数 据 的 每 个 字 节 都 需要 
更 多 的 首部 ,会 浪费 市 宽 和 消耗 处 理 资 源 。 例 如 ， 两 个 连接 至 FDDI 网 络 的 主机 通过 一 条 
点 到 点 链 路 互联 时 ， 没 有 必要 发 送 足以 适合 以 太 网 的 小 分 组 。 

这 里 的 中 心思 想 是 每 种 网 络 类 型 都 有 一 个 最 大 传输 单元 (Maximum Transmission U- 
nit，MTU)， 这 是 一 帧 中 所 能 携带 的 最 大 数据 报 。 注意 这 个 值 小 于 网 络 上 的 最 大 分 组 尺 
寸 ， 因 为 IP 数据 报 需 适 合 链 路 层 帧 的 有 效 载 茶 (payload) .© 

因此 ， 当 主机 发 送 IP 数据 报时 ， 它 可 以 根据 需要 选择 尺寸 。 一 个 合理 选择 是 与 主机 
直接 相连 的 网 络 的 MTU。 然 后 ， 只 有 当 到 目的 地 的 路 径 中 包含 一 个 使 用 更 小 MTU 的 网 
络 时 才 需 要 分 片 。 然 而 ， 如 果 IP 之 上 的 传输 协议 发 给 IP 一 个 大 于 本 地 MTU 的 分 组 ， 屠 
么 源 主机 必须 将 其 分 片 。 

通常 当 路 由 器 接 到 想 要 在 网 络 上 转发 的 数据 报 ， 而 这 个 网 络 的 MTU 比 所 接 到 的 数据 
报 小 时 ， 那 么 在 路 由 器 上 将 进行 分 片 。 为 使 这 些 分 片 在 接收 主机 上 能 够 重组 ， 它 们 都 在 标 
WF Aden) 字段 上 携 沉 同样 的 标识 符 。 这 个 标识 符 由 发 送 主 机 选择 ， 并 且 对 于 所 有 可 
能 在 某 个 合理 时 段 内 从 这 个 源 主机 到 达 目 的 主机 的 数据 报 来 说 是 唯一 的 。 由 于 原始 数据 报 
的 所 有 分 片 都 包含 这 个 标识 符 ， 所 以 重组 主机 能 够 识别 出 这 些 汇 聚 到 一 起 的 分 片 。 如 果 不 
是 所 有 的 分 片 都 到 达 接 收 主机 ， 那么 主机 将 放弃 重组 进程 并 丢弃 已 到 达 的 分 片 。IP 并 不 
试图 恢复 丢失 的 分 片 。 





O ”幸运 的 是 ，ATM 网 络 中 的 MTU 要 比 一 个 单一 信 元 大 得 多 ， 因 为 ATM 有 自己 的 分 片 方 式 。 在 ATM 中 ， 链 
路 层 帧 称 为 汇聚 子 层 协议 教 据 单元 (CS-PDU) 





为 了 理解 整个 过 程 ， 
个 数据 报时 会 发 生 什么 
络 的 MTU Æ 532 FÙ, HZ 


上 1400 字 节 的 数据 ) 在 经 过 802.11 网 络 和 第 一 个 以 太 网 时 不 需要 分 片 ， 
R2 ERREA 3 个 数据 报 。 


太 网 到 达 目 的 主机 。 这 种 情形 
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么 从 H5 发 送 的 一 个 1 420 F 


然后 ， 


在 图 3-17 中 给 出 。 这 个 图 还 


这 3 个 数据 报 经 路 由 需 R3 转发 ， 
:强调 两 个 重点 


考虑 当 图 3-14 cachet lel H5 向 主机 HS 发 送 
。 假 设 两 个 以 太 网 和 802. 11 网 络 的 MTU 上 


E1500 字 节 ， 点 到 点 网 
节 的 数据 报 (20 字 节 的 IP 首部 加 
JE JE TE BA H i 
通过 第 二 个 以 
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图 3-17 
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IP 数据 报 经 过 网 3-14 所 示 的 一 系 


1) 每 个 分 片 本 身 就 是 一 个 在 一 系列 物理 网 络 上 传送 


的 独立 的 IP 数据 报 ， 


与 其 他 分 片 无 关 ， 


2) 每 个 IP 数据 报 在 它 经 过 的 每 个 物理 网 络 上 都 要 


重新 封装 。 


通过 图 3-18 所 示 的 每 个 数据 报 的 首部 字段 可 详细 了 


解 分 片 过 程 。 图 3-18a 中 未 分 片 的 分 组 有 1400 字 节 


据 和 20 字 节 的 IP 首部 。 当 分 
路 由 器 R2 时 必须 分 片 。 一 


字 节 的 IP 首部 之 后 留 有 512 ETARE, 
节 数 据 。 路 由 器 在 Flags (标志 ) 字段 中 设 

意思 是 后 面 还 有 其 他 的 分 片 ， 并 
) 为 0， 因 为 这 个 分 片 包含 原始 数据 


片 包 括 512 字 
置 M 位 COLI 3-16)， 
设置 Offset ( 偏 移 量 


的 数 
组 到 达 MTU 为 532 字 节 的 
个 532 字 节 的 MTU 中 ,在 20 
因此 第 一 个 分 


ETHIIP| 512 
列 物理 网 络 


首部 的 开始 
标识 符 =x_ | {0l 偏 移 量 = 0 


首部 的 其 余部 分 


1400 字 节 数据 

a) 未 分 段 的 分 组 
首部 的 开始 
标识 符 =x | O | 1 偏 移 量 =0 
首部 的 其 余部 分 


| | i 











512 字 节 数 据 








报 的 第 一 部 分 。 第 二 个 分 片 携 带 的 数据 从 原始 数据 报 的 首部 的 开始 _ 
第 513 不 字 节 开始 ， 因 此 这 个 首部 中 的 Offset 字段 设置 = | | | 1 entea 
为 64， 即 512 二 8。 为 什么 除 8 WE? 因为 IP 的 设计 者 认定 | 首部 的 其 余部 分 
分 片 应 该 发 生 在 8 字 节 边 界 的 地 方 ， 即 Offset 字段 以 8 | 512 字 节 数据 | 
TUNEREM, UMEEN. ”wa 
你 指出 为 什么 要 这 样 设 计 。) 第 三 个 分 片 中 包含 最 后 的 首部 的 开始 
ed 偏 移 量 为 2X512 二 8==128。 ne CaN | 标识 符 =x | 0) 偏 移 量 =128 
一 个 分 片 ， 所 以 不 设置 M 位 。 | 首部 的 其 余部 分 
注意 ， 分 片 过 程 是 以 这 样 一 种 方式 完成 的 ， 如 果 分 | O piik 
片 到 达 另 一 个 有 更 小 MTU 的 网 络 ， 那 么 分 片 过 程 可 以 a 
b) 已 分 片 的 分 组 


重复 地 进行 。 分 片 产生 更 小 的 有 效 IP 数据 报 ， 在 接收 方 
易于 重组 成 原始 的 数据 报 ， 而 与 到 达 


大 顺序 无 关 。 重 组 在 图 3-18 


IP 分 片 中 所 使 用 的 首部 字段 
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接收 主机 上 而 不 在 每 个 路 由 器 上 进行 。 

IP 重组 绝 非 一 个 简单 的 过 程 。 例 如 ， 即 使 一 个 分 片 丢 失 ， 接收 方 仍 将 试图 重组 数据 
报 ， 而 最 终 将 放弃 并 不 得 不 回收 失败 的 重组 中 所 使 用 的 资源 .S 由 于 这 个 原因， 通常 认 
为 应 该 避免 UP 分 片 。 现 在 ， 我们 强烈 鼓励 主机 执行 “路 径 MTU 发 现 ”， 这 一 过 程 通过 
发 送 足 够 小 的 分 组 ， 使 其 能 通过 从 发 送 方 到 接收 方 路 符 上 MTU 最 小 的 链 路 ， 从 而 避免 
分 片 。 


3.2.3 全 局 地 址 


在 上 面 IP 服务 模型 的 讨论 中 ,我 们 曾 提 到 过 它 提 供 的 编 址 方案 。 毕 竟 ， 如 果 想 把 数 
据 发 送 到 任 一 网 络 的 任 一 主机 ， 就 需要 有 一 种 方式 来 识别 所 有 主机 。 因 此 , .我 们 需要 一 个 
全 局 编 址 方案 ， 其 中 任何 两 台 主 机 的 地 址 都 不 能 相同 。 全 局 唯一 性 是 一 个 编 址 方案 所 应 提 
供 的 首要 特性 .= 

以 太 网 地 址 是 全 局 唯一 的 ， 但 仅 此 一 点 还 不 能 满足 一 个 大 型 互联 网 的 编 址 方案 要 求 。 
以 太 网 的 地 址 也 是 扁平 的 〈flat)， 也 就 是 说 它们 没有 结构 ， 且 几乎 不 为 路 由 协议 提供 线 
索 。 事实 上 ， 以 太 网 地 址 的 确 有 一 个 用 于 分 配 Cassignment) 目的 的 结构 : 前 24 比特 标明 
制作 者 。 但 内 为 这 个 结构 对 于 网 络 拓扑 没有 影响 ， 所 以 它 没有 给 路 由 协议 提供 任何 有 用 信 
A. 相 比 之 下 ，IP 地 址 是 分 层 的 〈hierarchical) ， 即 它们 由 对 应 于 互联 网 某 种 层次 结构 的 
几 个 部 分 构成 。 更 确切 地 说 ，IP 地 址 包括 两 部 分 : 网 络 (network) 部 分 和 主机 Chost) 
部 分 。 对 于 由 多 个 相互 连接 的 网 络 组 成 的 互联 网 而 言 ， 这 是 一 个 非常 合理 的 结构 。IP 地 
址 的 网 络 部 分 指明 主机 连接 到 哪个 网 络 ， 所 有 连 到 同一 网 络 主机 的 IP 地 址 的 网 络 部 分 相 
同 。IP 地 址 的 主机 部 分 唯一 地 标识 特定 网 络 中 的 每 台 主 机 。 这 样 ， 在 如 图 3-14 所 示 的 简 
单 网 络 中 ， 网 络 1 中 主机 的 地 址 有 相同 的 网 络 部 分 和 不 同 的 主机 部 分 。 

注意 图 3-14 中 路 由 器 被 连接 到 两 个 网 络 。 它 们 在 每 个 网 络 上 都 需要 一 个 地 址 ， 一 个 
接口 分 配 一 个 了 地址。 例如 ， 位 于 无 线 网 和 以 太 网 之 间 的 路 由 器 R1， 在 到 无 线 网 的 接口 上 
有 一 个 IP 地 址 ， 且 与 无 线 网 中 主机 的 网 络 部 分 相同 ， 而 到 以 太 网 接口 上 的 IP 地 址 则 与 以 
太 网 主机 的 网 络 部 分 相同 。 因 此 ， 记 住 路 由 器 可 以 用 具有 两 个 网 络 接口 的 一 台 主 机 的 方式 
实现 ， 更 确切 地 说 ， 应 把 IP 地 址 视 为 属于 接口 而 不 是 属于 主机 。 

现在 ， 这 些 分 层 性 地 址 看 起 来 像 什么 ?与 其 他 某 些 
分 层 地 址 格式 不 同 的 是 ， 所 有 地 址 的 两 部 分 长 度 都 不 相 
同 。 如 图 3-19 所 示 ，IP 地 址 分 为 三 种 不 同 的 类 型 ， 每 
种 类 型 都 定义 不 同 长 度 的 网 络 部 分 和 主机 部 分 。 (还 有 
将 在 4. 2 节 中 讨论 的 说 明 多 播 组 的 D 类 地 址 ， 而 下 类 地 
址 现在 已 经 不 再 使 用 ,) 所 有 情况 下 ， 地 址 均 为 32 
位 长 。 


TP 地 址 的 类 型 由 最 高 位 的 几 个 比特 标识 。 如 果 第 1 








Liol 网 络 | 主机 


、 ae aa PAREO c) C% 
位 是 0， 即 为 A 类 地 址 。 如 果 第 1 位 是 1、 第 2 位 是 0， on 
则 为 类 地 址 。 如 果 前 2 位 是 1 而 第 3 位 是 0， WAC 图 3-19 IP 地址 





S 在 第 8 章 中 我 们 将 会 看 到 ， 使 主机 占用 不 必要 的 资源 可 能 会 导致 拒绝 服务 攻击 ， 
S 不 过 ， 现 代 互 联网 中 不 再 强调 全 局 地 址 ， 理 由 涉及 很 多 方面 ， 详 见 4.1 节 ， 
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类 地 址 。 这 样 ， 对 大 约 40 亿 个 可 能 的 IP 地 址 来 说 ，1/2 是 A 类 , 1/4 EBA, 1/8 EC 
类 。 每 一 类 都 分 配 一 定数 目的 位 给 地 址 的 网 络 部 分 ， 而 其 余 的 留 给 主机 部 分 。A 类 网 络 IP 
地 址 的 网 络 部 分 有 7 位 ， 主 机 部 分 有 24 位 ， 意 味 着 只 能 有 126 个 A 类 网 络 (0 和 127 保 
留 )， 但 每 一 类 都 能 容纳 最 多 22 一 2 (大 约 1 600 万 ) 台 主 机 Cl. 有 两 个 保留 值 )。B 
类 地 址 分 配 14 位 给 网 络 部 分 、16 位 给 主机 部 分 ,意味 着 每 个 BB 类 网 络 能 容纳 65 534 GE 
机 。 最 后 ，C 类 地 址 只 将 8 位 给 主机 部 分 、 其 余 21 位 均 为 网 络 部 分 ， 所 以 ，C 类 网 络 只 可 
以 有 256 个 唯一 的 主机 标识 符 ， 意 味 着 只 能 连接 254 台 主 机 ( 预 留 一 台 主 机 标识 255 用 于 
广播 ，0 是 非法 主机 号 ) 。 然 而 ， 此 编 址 方案 支持 22 个 C 类 网 络 。 

表面 上 看 ， 这 种 编 址 方案 有 着 很 大 的 灵活 性 ， 使 得 众多 不 同 规模 的 网 络 可 以 非常 有 效 
地 共存 。 最 初 的 思想 是 因特网 将 包含 一 小 部 分 广域网 (A 类 网 络 ) 、 相 当 数 量 站 点 (校园 ) 
规模 的 网 络 (BAMA) 和 大 量 局 域 网 (C 类 网 络 )。 然 而 ， 正 如 我 们 看 到 的 ， 现 在 的 编 
制 方案 并 没有 足够 的 灵活 性 。 当 前 ，IP 地 址 通常 是 “无 类 的 ”>， 有 具体 细节 接 下 来 解释 。 

在 我 们 了 解 如 何 使 用 IP 地 址 之 前 ， 先 来 看 一 些 实际 的 事情 ， 比 如 如 何 将 IP 地 址 写 下 
来 。 按 照 惯例 ，IP 地 址 被 写成 4 个 以 点 相隔 的 十 进 制 (decimal) 整数 。 每 个 整数 表示 一 
个 十 进 制 数值 ， 包 含 在 地 址 的 一 个 字 节 中 ， 从 最 高 位 开始 。 例 如 ,键入 这 个 句子 的 计算 机 
的 地 址 是 171. 69. 210. 245, 

重要 的 是 不 要 将 IP 地 址 与 因特网 的 域名 相 混 消 ， 域 名 也 是 分 层 的 . 域名 是 以 点 分 陋 
的 ASCI 码 字 符 串 ， 如 cs. princeton. edu， 我 们 将 在 9. 3. 1 节 中 讨论 它 。 关 于 IP 地 址 的 重 
要 事项 是 IP 分 组 首部 携带 的 信息 ，IP 路 由 需 正 是 使 用 其 中 的 地 址 做 出 转发 决定 的 . 


3.2.4 1IP 数据 报 转 发 


我 们 现在 来 看 互联 网 中 IP 路 由 器 转发 数据 报 的 基本 机 制 。 回 顾 3. 1 节 ， 和 转发 for- 
warding) 是 将 从 输入 端口 得 到 的 一 个 分 组 通过 适当 输出 端口 发 送出 去 的 过 程 ， 而 路 由 
(routing) 是 建造 一 张 表 以 决定 分 组 的 正确 输出 端口 的 过 程 。 本 节 讨 论 的 重点 是 转发 ， 路 
由 将 在 3. 3 节 中 讨论 。 

当 我 们 讨论 IP 数据 报 的 转发 时 ， 要 记 住 以 下 几 个 要 点 ， 

。 每 个 IP 数据 报 均 包含 目 的 主机 的 IP 地 址 。 

。IP 地 址 的 网 络 部 分 唯一 地 标识 作为 更 大 的 因特网 一 部 分 的 一 个 物理 网 络 。 

。 在 连接 到 同一 物理 网 络 上 的 所 有 主机 和 路 由 器 的 地 址 中 ， 其 网 络 部 分 相同 ， 因 此 

可 以 通过 在 网 络 上 发 送 帧 而 彼此 通信 。 
。 每 个 作为 因特网 一 部 分 的 物理 网 络 ， 按照 定义 至 少 有 一 台 路 由 器 同时 至 少 连接 到 
一 个 其 他 的 物理 网 络 ， 这 人 台 路 由 器 可 以 与 其 中 任 一 网 络 的 主机 或 路 由 器 交换 分 组 。 

因此 ， 转 发 IP 数据 报 可 以 按 以 下 方法 处 理 。 一 个 数据 报 从 源 主机 发 往日 的 主机 ， 沿 
途 可 能 经 过 多 台 路 由 器 。 任 何 一 个 节点 ,无论 是 主机 还 是 路 由 器 ， 首 先 试图 确定 自己 是 否 
与 目的 主机 连接 在 同一 个 物理 网 络 上 。 为 了 做 到 这 一 点 ， 它 比较 目的 地 址 的 网 络 部 分 和 它 
的 每 一 个 网 络 接口 地 址 的 网 络 部 分 。 (主机 通常 有 一 个 接口 ， 而 路 由 器 通常 有 两 个 或 多 个 
接口 ， 因 为 它们 一 般 连接 在 两 个 或 多 个 网 络 上 。) 如 果 匹 配 ， 那 么 就 意味 着 目的 地 址 与 接 
口 位 于 同一 网 络 中 ， 分 组 可 以 在 此 网 络 中 直接 传送 。3. 2.6 节 将 解释 这 个 过 程 的 一 些 
细节 。 

如 果 没 有 被 作为 目的 节点 而 连接 到 同一 个 物理 网 络 上 ， 就 需要 将 数据 报 发 往 路 由 器 。 
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一 般 而 言 ， 每 个 节点 都 有 多 台 路 由 器 可 供 选择 ， 因 此 它 需 选择 一 个 最 佳 的 或 至 少 是 有 较 好 
机 会 使 数据 报 更 接近 目标 的 路 由 器 。 所 选择 的 路 由 器 称 为 下 一 跳 (next hop) 路 由 器 。 该 
路 由 器 通过 查询 它 自 己 的 转发 表 找 到 正确 的 下 一 跳 。 从 概念 上 讲 ， 转 发 表 就 是 一 个 包括 
(NetworkNum, NextHop) (网 络 号 ， 下 一 跳 ) 对 的 表 。 (下 面 我 们 将 看 到 ， 实 际 上 转发 
表 还 包括 和 下 一 跳 有 关 的 额外 信息 .) 通常 还 有 一 台 默 认 路 由 器 ， 当 表 上 的 条 目 与 目标 网 
络 号 都 不 匹配 时 将 会 使 用 默认 路 由 器 。 对 于 主机 来 说 ， 仅 有 一 台 默 认 路 由 器 是 完全 可 以 接 
受 的 ， 它 意味 着 当 目 的 主机 与 发 送 主 机 不 在 同一 个 物理 网 络 时 所 有 数据 报 将 通过 默认 路 由 
ft AC tH o 
我 们 可 将 数据 报 转发 算法 描述 如 下 : 


if( 目 的 节点 的 NetworkNum = 我 的 一 个 接口 的 NetworkNum)then 
经 过 那个 接口 传送 分 组 到 目的 节点 
else 
if( 目 的 A 点 的 NetworkNum 在 我 的 转发 表 中 ) then 
传送 分 组 到 NextHop 路 由 器 
else 
传送 分 组 到 默认 路 由 器 
对 于 只 有 一 个 接口 且 转 发 表 中 只 有 一 台 默 认 路 由 器 的 主机 来 说 ， 算 法 可 以 简化 如 下 : 
jf( 目 的 节点 的 NetworkNum = 我 的 网 络 号 )then 
直接 传送 分 组 到 目的 节点 


else 
传送 分 组 到 默认 路 由 器 


我 们 来 看 这 个 算法 在 图 3-14 所 示 的 互联 网 中 是 如 何 工 作 。 首 先 ， 假设 H 要 发 送 一 
数据 报到 H2。 由 于 它们 在 同一 个 物理 网 络 中 ，H1 和 H2 的 IP 地 址 有 相同 的 网 络 部 分 ， 
于 是 H1 推断 可 以 在 以 太 网 上 直接 向 H2 发 送 数据 报 。 这 里 有 一 个 问题 需要 解决 ， 即 H1 
如 何 找到 H2 的 正确 以 太 网 地 址 一 一 这 是 3. 2.6 节 描 述 的 地 址 解析 机 制 。 


相关 主题 


网 桥 、 交 换 机 和 路 由 器 

网 桥 、 交 换 机 和 路 由 器 很 容易 被 混淆 。 对 于 这 样 的 混淆 ， 很 可 能 的 一 个 原因 是 在 某 一 
层 上 ， 它 们 都 是 从 一 条 链 路 把 消息 转发 到 另 一 条 链 路 。 人 们 根据 分 层 对 它们 做 出 区 分 : 网 
桥 是 链 路 层 节 点 〈 它 们 在 链 路 间 转 发 帧 以 实现 扩展 的 LAN)， 交 换 机 是 网 络 层 节点 〈 它 们 
在 链 路 间 转 发 分 组 以 实现 分 组 交换 网 络 )， 路 由 器 是 互联 网 层 节 点 (它们 在 网 络 之 间 转 发 
数据 报 以 实现 互联 网 )。 

网 桥 和 交换 机 之 间 的 区 别 正在 迅速 地 消失 。 比 如 ， 我 们 已 经 可 以 看 到 多 口 网 桥 通常 称 
为 以 太 网 交换 机 或 者 局 域 网 交换 机 。 正 因 如 此 ， 网 桥 和 交换 机 通常 编组 为 “第 二 层 设 备 ”。 
这 里 第 二 层 是 指 “ 在 物理 层 之 上 ， 在 互联 网 层 之 下 ”。 

历史 上 ， 局 域 网 交换 机 (或 网 桥 ) 与 广域网 交换 机 (比如 基于 ATM 以 及 帧 中 继 ) 之 
间 曾 有 一 些 重 要 区 别 。 局 域 网 交换 机 传统 上 基于 生成 树 算法 ， 而 广域网 交换 机 通常 运行 路 
由 协议 ， 从 而 允许 每 台 REA SET Ee a 这 是 一 个 很 重要 的 区 别 ， 因 为 如 果 能 
了 解 整个 网 络 的 拓扑 ， 就 允许 交换 机 辨别 不 同 的 路 由 器 。 和 生成 树 算法 只 被 限制 在 转 
发 消息 的 单一 树 上 。 另 外 ， 生 成 树 方法 无 法 扩展 。 同 样 ， 这 个 区 别 受 到 的 威胁 是 广 域 路 由 
协议 开始 调整 其 工作 方式 并 进入 局 域 网 交换 机 。 
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交换 机 和 路 由 器 之 间 又 有 什么 区 别 ? 从 内 部 技术 上 讲 ， 两 者 看 起 来 很 相似 (在 讲 路 
器 实现 时 将 阐述 这 一 点 ) ， 关 键 区 别 是 它们 转发 分 组 的 种 类 : 路 由 器 转发 IP 数据 报 ， 而 交 
换 机 转发 第 二 层 分 组 (以 太 网 帧 或 者 ATM FH). 

交换 机 构造 的 ATM 网 络 和 路 由 器 构造 的 因特网 之 间 的 一 个 很 大 的 区 别 是 ， 因 特 网 可 
以 适应 异 构 性 ， 而 ATM 只 包含 同 构 链 路 。 对 异 构 性 的 支持 是 因特网 得 以 广泛 使 用 的 关键 
原因 之 一 。 这 也 使 得 IP 虚拟 运行 于 其 他 网 络 协议 之 上 (包括 ATM 和 以 太 网 )， 导 致 这 些 
协议 被 看 作 第 二 层 技术 。 


rt 
出 








现 假设 H5 要 发 送 一 个 数据 报 给 H8。 由 于 不 在 同一 个 物理 网 络 中 .它们 有 不 同 的 网 
络 号 ， 因 此 H5 推断 需 将 数据 报 发 送 给 路 由 器 。R1 是 唯一 选择 ， 默 认 路 由 器 。 所 以 H5 通 
过 无 线 网 将 数据 报 发 给 R1。 类 似 地 ，R1 知道 不 能 直接 将 数据 报 发 给 H8， 央 为 RI 的 任何 
一 个 接口 都 不 和 H8 在 同一 个 物理 网 络 中 。 假 设 RI 的 默认 路 由 器 是 R2，R1 通过 以 太 网 
将 数据 报 发 给 R2。 假 设 R2 的 转发 表 如 表 3-5 所 
A, CRB mMARRS (MH), Hee BES PRA RRA 
报 至 R3。 最 后 ， 由 于 R3 与 H8 处 于 同一 个 物理 ane = 
网 络 中 ，R3 将 数据 报 直接 发 送 至 H8 。 . 4 R3 

注意 转发 表 中 可 能 包含 直接 相连 的 网 络 的 信 
息 。 例 如 ， 我 们 可 以 将 路 由 器 R2 的 网 络 接口 标 








表 3-6 图 3-14 中 路 由 器 R2 的 完整 转发 表 

















网 络 数 F 一 卡 
记 为 点 到 点 链 路 (网络 3) 中 的 接口 0 和 以 太 网 j | T 
(网 络 2) PRO 1, BA R2 将 得 到 如 表 3-6 所 2 接口 1 
示 的 转发 表 。 3 EE 
4 3 


因此 ， 对 于 R2 在 一 个 分 组 中 遇 到 的 任何 网 络 
号 ， 它 都 知道 该 怎么 做 。 如 果 网 络 直接 与 R2 相连 ， 这 时 分 组 可 通过 网 络 被 送 达 目的 地 ， 
如 果 网 络 可 经 某 个 下 一 跳 路 由 器 到 达 ， 此 时 R2 可 经 过 所 连接 的 网 络 到 达 此 路 由 器 。 在 任 
何 一 种 情况 下 ，R2 都 使 用 下 面 描述 的 ARP 来 找到 分 组 将 要 发 送 到 的 下 一 节点 的 MAC 
地 址 。 

R2 使 用 的 转发 表 很 简单 ， 可 以 用 手工 方式 配置 。 然 而 ， 通常 这 些 表 痢 复杂 得 多 ， 击 
要 运行 路 由 协议 来 建造 ，3. 3 节 描 述 了 这 样 一 个 路 由 协议 。 实 际 中 还 需 注 意 ， 网 络 号 通常 
更 长 (如 128. 96)。 

我 们 现在 能 看 到 分 层 编 址 一 一 将 地 址 分 为 网 络 部 分 和 主机 部 分 如 何 提 高 大 型 网 络 
的 可 扩展 性 。 路 由 器 现在 包含 的 转发 表 只 列 出 一 组 网 络 号 ， 而 不 是 网 络 中 的 所 有 节点 。 在 
我 们 简单 的 例子 中 ，R2 能 够 在 一 个 4 条 记录 的 表 中 存储 到 达 网 络 中 所 有 主机 GE e 
台 主 机 ) 所 需 的 信息 。 即 使 每 个 物理 网 络 有 100 台 主 机 ，R2 也 只 需 同样 的 4 Kido. i 
是 实现 可 扩展 性 的 良好 的 第 一 步 〈 虽 然 绝 不 是 最 后 一 步 ) 。 

结论 这 里 说 明 建 造 可 扩展 的 网 络 的 最 重要 原则 之 一 : 为 达到 可 扩展 性 ， 需要 减 

SERRGDY hELGLAFALMERBEEE. ER NOTALPARS 

(hierarchical aggregation), IP 采用 两 层 的 层次 结构 ， 网 络 在 上 层 ， ele 

我 们 通过 让 路 由 器 只 处 理 如何 到 达 正 确 的 网 络 来 聚合 信息 .将 路 由 器 传送 一 个 数 

据 报 到 给 定 网 络 中 任 一 节点 所 需要 的 信息 表示 为 一 条 聚合 信息 。 


六 
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3.2.5 子 网 划分 和 无 类 地 址 


IP 地 址 的 最 初 目 的 是 希望 其 网 络 部 分 能 够 唯一 明确 确定 一 个 物理 网 络 ， 然 而 这 种 方 
法 有 两 个 缺点 。 假 设 一 个 大 型 校园 中 有 很 多 内 部 网 络 ， 并 决定 连接 到 因特网 上 。 对 每 个 网 
络 来 说 ， 不 管 多 么 小 ， 都 至 少 需要 一 个 C 类 网 络 地 址 。 对 台 主 机 的 网 络 来 
说 ， 甚 至 需要 一 个 B 类 地 址 。 看 起 来 这 也 许 不 是 一 个 大 问题 ， 事 实 上 在 因特网 的 最 初 构想 
中 也 确实 不 是 什么 大 问题 ,但 是 我 们 只 有 为 数 有 限 的 网 络 号 ， 并 且 B 类 网 络 地 址 比 C 类 少 
pe 对 B 类 地 址 往往 会 有 很 高 的 需求 ， 因 为 你 不 知道 网 络 是 否 会 扩展 到 超过 255 个 节 
点 ,因此 一 开始 就 使 用 B 类 地 址 比 在 超出 一 个 C 类 网 络 的 空间 时 再 对 每 台 主 机 重新 编号 = 
eo 这 里 我 们 关注 的 问题 是 地 址 分 配 的 低 效 率 : 只 有 两 个 节点 的 网 络 使 用 一 个 完整 
的 C 类 网 络 地 址 ， 那 么 就 浪费 了 253 个 有 用 地 址 ; 一 个 只 有 稍 多 于 255 台 主 机 的 B 类 网 
络 ， 则 浪费 6 64 000 个 以 上 的 地 址 。 

如 果 给 每 个 物理 网 络 分 配 一 个 网 络 号 ， 耗 尽 IP 地 址 空间 的 速度 就 比 我 们 想象 的 快 得 
多 。 虽 然 我 们 需要 连接 超过 40 亿 台 主机 才能 用 完 所 有 合法 的 地 址 ,但 是 连接 2" CN 
16 000) 个 BB 类 网 络 就 能 用 完 B 类 地 址 空间 。 因 此 ， 我 们 希望 找到 一 个 更 有 效 地 使 用 网 络 
号 的 方法 。 

当 你 考虑 路 由 时 ， 就 会 发 现 分 配 多 个 网 络 号 有 另 一 个 明显 人 缺点。 回忆 一 下 ， 人 参与 路 由 
协议 的 节点 中 存储 的 状态 数量 ti 是 与 其 他 节点 数 成 正比 的 ， 同时， 一 个 互联 网 中 的 路 由 包括 
建立 转发 表 ， 这 张 表 告诉 路 由 器 如 何 到 达 不 同 的 网 络 。 这 样 ， 使 用 的 网 络 号 越 多 ， 转 发 表 
就 越 大 。 大 转发 表 增 加 了 路 由 器 的 开销 ， 并 且 在 使 用 同一 种 技术 时 ,大 表 中 的 查找 速度 比 
小 表 中 的 查找 速度 慢 ， 因 此 降低 了 路 由 器 的 性 能 。 这 是 另 一 个 需要 仔细 分 配 网 络 号 的 
原因 。 

划分 子 网 (subnetting) 提供 了 减少 分 配 网 络 号 总 数 的 第 一 思想 是 只 用 一 个 网 
络 号 ， 把 具有 这 个 网 络 号 的 IP 地址 分 配给 多 个 物理 网 络 ， pe ce ite (sub- 
net) 。 为 使 这 种 做 法 行 之 有 效 ， 需 要 做 几 件 事 : 第 一 ， 子 网 应 当 彼此 离 得 很 近 。 这 是 因为 
从 因特网 远 处 的 一 个 点 上 看 ， 它 们 像 是 一 个 单一 网 络 ， 只 有 一 个 网 络 号 。 这 意味 着 一 台 
bag ik heigl 因此 它们 最 好 在 同一 方向 上 。 子 网 的 最 佳 应 用 

境 是 在 一 个 有 多 个 物理 网 络 的 大 型 校园 或 公司 中 。 nat lee - 子 网 时 ， 
es 首 校园 网 连 在 因特网 的 什么 地 方 。 这 通常 是 一 个 点 ， 因 此 在 转发 表 : dei Moni 
录 就 够 了 。 即 使 校园 网 中 有 he ee uk i 也 最 好 先知 道 如 何 到 达 
园 网 的 一 个 点 。 

在 多 个 网 络 当 中 共享 一 个 网 络 号 的 机 制 涉及 使 用 子 网 掩 码 Csubnet mask) 配置 每 个 
子 网 中 的 所 有 节点 。 使 用 简单 IP 地 址 时 ， 同 一 网 络 中 的 所 有 主机 必须 有 相同 的 网 络 号 。 
子 网 捧 码 使 我 们 可 以 引入 一 个 子 网 号 〈subnet number) ， 同 一 物理 网 络 中 的 所 有 主机 将 会 
有 相同 的 子 网 号 ， 这 意味 着 主机 可 能 处 于 不 同 的 物理 网 络 中 ， 但 共享 一 个 网 络 号 。 这 个 概 
念 的 解释 见 图 3-20。 

划分 子 网 对 主机 来 说 意味 着 现在 它 是 由 IP 地 址 和 它 所 连接 子 网 的 掩 人 码 来 配置 的 。 例 

， 图 3-21 中 的 主机 Hl 配置 的 地 址 为 128.96.34.15, F W WEIG GE 255. 255. 255. 128, 
-个 给 定 的 子 网 中 ， 所 有 主机 都 配置 相同 的 拖 码 ， 即 每 个 子 网 只 有 一 个 抢 码 ,.) 将 这 两 
个 数 的 按 位 与 运算 结果 定义 为 此 主机 和 同一 子 网 内 的 所 有 其 他 主机 的 子 网 号 。 在 这 种 情况 
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下 ，128. 96. 34. 15 和 255. 255. 255. 128 按 位 做 与 运算 等 于 128. 96. 34.0， 这 就 是 此 图 中 最 
上 端子 网 的 子 网 号 。 


F WHEY: 255.255.255.128 
子 网 号 : 128.96.34.0 

















128.96.34.15 | 
i 128.96.34.1 
SD R 
H1 a) 
128.96.34.130 子 网 拖 码 :255.255.255.128 
| ee Se 子 网 号 : 128.96.34.128 
B 类 地 址 | 
类 地 址 | 128.96.34.139 
—- 128.96.34.129 
HNN | oo000000 | H3 SSF 
i SODS J ron ba R2 
FARE (255.255.255.0 ) : S H2 
128.96.33.1 
| MS FMD 主机 ID [128.96.33.14 | 
= | i FRIHET: 255.255.255.0 
ear" 子 网 号 : 128.96.33.0 
图 3-20 子 网 地 址 图 3-21 划分 子 网 的 例子 


当主 机 要 发 送 一 个 分 组 到 一 个 特定 的 IP 地 址 时 ， 它 所 做 的 第 一 件 事 就 是 用 它 自 己 的 子 网 
掩 码 与 目标 IP 地 址 做 按 位 与 运算 。 如 果 结 果 等 于 发 送 主机 的 子 网 号 ,那么 它 就 得 知 目的 
主机 在 同一 子 网 内 ， 分 组 可 以 在 子 网 中 直接 传送 。 如 果 结 果 不 等 于 发 送 主机 的 子 网 号 ， 就 
需要 把 分 组 发 送 给 一 台 路 由 器 以 便 转 发 到 另 一 子 网 。 例 如 ， 如 果 HI 向 H2 Bik. 那么 H1 
将 它 的 子 网 掩 码 (255.255.255.128) 和 H2 的 地 址 (128. 96. 34. 139) 进行 按 位 与 运算 得 
到 128. 96. 34. 128。 这 与 Hl 的 子 网 号 128. 96. 34.0 不 匹配 ， 因 此 H1 得 知 H2 在 另 一 个 不 
同 的 子 网 中 。 由 于 H1 不 能 直接 在 子 网 上 传递 分 组 给 H2， 所 以 它 将 分 组 传送 给 它 的 默认 
路 由 器 R1. 

Pp eng lca ， 路 由 器 的 转发 表 也 发 生 了 一 点 变化 。 回 忆 一 下 ， 我们 刚才 
有 一 个 转发 表 ， 这 个 表 由 成 对 形式 的 ‘NetworkNum，NextHop)(( 网 络 号 .下 一 跳 )) 的 
记录 组 成 。 We 表 中 各 记录 的 形式 现在 必须 保存 (SubnetNum., Subnet- 
Mask, NextHop)((FMS, FMT, FI) 形式 的 记录 。 为 了 在 表 中 找到 正确 的 记 
录 ， 路 由 器 将 分 组 的 目的 地 址 与 每 个 记录 的 子 网 掩 码 依次 进行 按 位 与 运算 。 如 果 结 果 与 
某 一 记录 的 子 网 号 相 匹 配 ， 那 么 这 就 是 要 使 用 的 
记录 ， 然 后 将 分 组 转发 到 指定 的 下 一 跳 路 由 器 。 ES? Mi PRR 
在 图 3-21 所 示 的 网 络 中 ， 路 由 器 R1 的 记录 如 表 FS | AMER | 
3-7 所 示 。 128. 96. 34. 128 接口 1 

继续 看 从 H1 向 H2 传送 数据 报 的 例子 ，R1 R2 
将 H2 的 地 址 (128. 96. 34. 139) 与 第 一 个 记录 的 
FHE (255. 255. 255. 128) 进行 按 位 与 运算 ， 并 将 结果 (128. 96. 34. 128) 与 这 一 记录 
的 网 络 号 (128. 96. 34. 0) 进行 比较 。 由 于 不 匹配 ， 所 以 继续 比较 下 一 记录 。 这 一 次 出 现 
匹配 ， 所 以 R1 通过 接口 1 将 数据 报 送 往 H2， 接 口 1 与 H2 在 同一 网 络 中 。 

我 们 现在 可 将 数据 报 转发 算法 描述 如 下 : 


D= 目标 IP 地 址 










255. 255, 255, 128 


255. 128 














128. 96. 





33. 0 
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对 于 每 个 转发 表 入 口 (SubnetNumber .SubnetMask ,NextHopy》 
Dl= SubnetMask & D 
if Di= SubnetNumber 
if NextHop 2— Mr 


IŁ g Bb HE 
RATS 





else 
传送 数据 报到 NextHop (一 台 路 由 器 ) 


鼠 管 这 个 例子 中 没有 给 出 .但 表 中 通常 包含 默认 路 由 器 ， 可 在 找 不 到 明确 的 匹配 时 使 
用 。 需要 指出 ， 单 纯 地 实现 这 种 算法 效率 是 很 低 的 ， 将 会 重复 地 进行 目的 地 址 与 子 网 掩 码 
的 按 位 与 运算 (而 子 网 掩 码 可 能 并 非 每 次 都 不 相同 ) 以 及 线性 表 搜 索 。 

有 关子 网 划分 的 一 个 重要 结论 是 ， 互 联网 的 不 同 部 分 将 看 到 不 同 的 东西 。 从 我 们 假想 
的 校园 外 部 ,路 由 器 看 到 的 是 一 个 单一 网 络 。 在 以 上 提 到 的 例子 中 ,校园 外 的 路 由 器 把 图 
3-21 的 网 络 集合 只 看 作 网 络 128.96. 并 且 转 发 表 中 有 一 条 记录 告诉 它们 如 何 到 达 这 个 网 
2. 然而 .校园 内 的 路 由 器 需要 能 够 通过 选择 路 由 将 分 组 传 到 正确 的 子 网 。 因 此 ， 并 不 是 
互联 网 的 所 有 部 分 都 能 看 到 同样 的 路 由 信息 。 这 是 一 个 聚合 (aggregation) 路 由 信息 的 例 
T. 这 些 聚 合 信息 是 扩展 路 由 系统 的 基础 。 后 文 将 会 介绍 聚合 的 其 他 应 用 实例 。 

1. 无 类 地 址 

子 网 划分 有 一 个 同类 ， 有 时 也 称 为 起 网 (super netting)， 但 通常 称 为 无 类 域 间 路 由 
(Classless Interdomain Routing，CIDR， 发 音 为 “cider”) 。CIDR 用 子 网 划分 的 思路 处 理 
地 址 类 划分 从 而 得 到 其 逻辑 结论 。 那 么 为 什么 子 网 无 法 满足 需要 呢 ? 本 质 上 讲 ， 子 网 只 人 允 
许 我 们 把 一 些 类 别 的 地 址 在 多 个 子 网 内 分 拆 ， 而 CIDR 允许 我 们 将 不 同类 的 地 址 组 成 一 个 
单独 的 “ 超 网 ”。 这 样 进一步 解决 了 地 址 空间 不 足 的 问题 ， 且 可 防止 路 由 系统 过 载 。 

让 我 们 看 一 下 地 址 空间 的 效率 与 可 扩展 性 问题 是 如 何 共存 的 。 假 设 某 公 司 的 网 络 由 
256 台 主 机 构成 。 此 时 ， 要 分 配 太 多 的 C 类 地 址 ， 所 以 你 会 希望 绑 定 一 个 B 类 地 址 。 然 
而 ， 将 一 个 可 以 容纳 65 535 个 地 址 的 主干 地 址 空间 分 给 256 台 主 机 ， 甚 占用 率 仅仅 是 
256/65 535 二 0.39%。 即 使 划分 子 网 可 以 使 我 们 更 细致 地 分 配 地 址 ， 但 一 个 无 法 回避 的 事 
实 是 任何 一 个 超过 255 台 主 机 的 组 织 , 或 现在 没有 但 最 终 可 能 达到 如 此 多 主机 数 的 组 织 
然 雷 要 一 个 也 类 地 址 。 

我 们 面 对 此 类 问题 的 第 一 种 处 理 方法 是 拒绝 给 任何 组 织 B 类 地 址 〈 除 非 有 证 据 显 示 他 
们 的 需求 接近 GAK 个 地 址 )， 而 是 给 他 们 合适 的 C 类 地 址 以 满足 主机 数目 要 求 。 由 于 我 们 
现在 每 次 以 256 个 地 址 为 单位 分 配 空间 ， 所 以 能 够 更 精确 地 与 组 织 消耗 的 地 址 空间 数 相 匹 
配 。 对 于 任何 一 个 至 少 有 256 台 主 机 的 组 织 来 说 ， 我 们 可 以 保证 地 址 的 利用 率 至 少 达到 
50%， 且 通常 更 高 。 

然而 ， 这 种 解决 方法 会 引起 一 个 严重 的 问题 ， 对 路 由 器 超 量 存储 的 需求 。 如 果 一 个 六 
点 被 分 配 了 16 个 C 类 网 络 号 ， 就 意味 着 每 个 因特网 主干 网 路 由 器 的 路 由 表 中 需要 16 条 记 
录 才 能 将 分 组 传送 到 该 站 点 ， 即 使 到 这 些 网 络 的 路 径 相 同 也 是 如 此 。 如 果 我 们 给 这 个 站 点 
分 配 一 个 B 类 地 址 ， 同 样 的 路 由 信息 就 可 以 存储 为 一 条 表 记 录 。 然 而， 地 址 分 配 的 效率 将 
只 有 16X255/65 536=6. 2%. 

因此 ，CIDR 尝试 在 减少 一 台 路 由 器 所 需 知道 的 路 由 数 的 愿望 与 有 效 分 配 地 址 的 需求 
之 间 取 得 平衡 。 为 做 到 这 一 点 ，CIDR 帮助 我 们 聚合 (aggregate) 路 由 。 就 是 说 ， 它 让 我 
们 仅 使 用 转发 表 中 的 一 条 记录 来 知道 如 何 到 达 多 个 不 同 的 网 络 。 你 可 能 已 经 从 名 字 猜 到 ， 
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它 通 过 打破 地 址 分 类 之 间 的 严格 界限 来 做 到 这 一 点 。 为 了 理解 CIDR 如 何 工 作 、 我 们 假设 
某 组 织 有 16 个 C 类 网络 号 。 我 们 可 以 分 配 一 块 连续 的 〈contiguous) C 类 地 址 而 不 是 随机 
地 分 配 16 个 地 址 。 假 设 我 们 分 配 的 C 类 网 络 号 为 192.4.16 一 192.4.31。 可 以 看 出 ,在 此 
范围 内 ， 所 有 地 址 的 高 20 位 是 一 样 的 (11000000000001000001)。 这 样 . 我 们 就 有 效 建造 
了 一 个 20 位 的 网 络 号 ， 它 所 能 支持 的 主机 数 界 于 B 类 网 络 号 与 C 类 网 络 号 之 间 。 换 句 话 
说 ,我 们 既得 到 以 小 于 电 类 网 络 的 块 分 配 地 址 的 高 效率 ， 又 得 到 可 在 转发 表 中 使 用 的 单个 
网 络 前 级 。' 可 以 看 出 ， 要 让 此 方案 正常 工作 ， 我们 需要 分 发 具有 相同 前 级 的 C 类 地 址 块 . 
这 意味 着 每 块 都 必定 包含 数目 为 2 的 震 次 方 的 C 类 网 络 。 

CIDR 需要 一 种 新 型 标注 或 者 用 已 知 的 前 级 (prefix) 来 表示 网 络 号 ， 因 为 前 级 可 以 任 
意 长 。 通 常 的 做 法 是 在 前 级 后 放置 一 个 “/X”"， 其中“X” 是 前 级 的 位 长 度 。 所 以 ,在 前 
面 的 例子 里 ， 在 从 192.4.16 ~ 192.4.31 之 间 的 网 络 中 ，20 位 的 前 级 可 以 表示 为 
192. 4.16/20。 相 反 ， 如 果 需 要 表示 单个 C 类 网 络 号 ,因为 其 是 24 位 长 ,所 以 记 作 
192. 4. 16/24。 当 前 ， 随 着 CIDR 成 为 规范 ， 可 以 听 到 更 多 的 人 说 起 “/24” 前 级 表示 的 C 
类 网 络 。 注 意 ， 按 这 种 方法 表示 网 络 地 址 类 似 于 划分 子 网 中 用 过 的 ‘mask，value，(〈 掩 码 ， 
E) 方法 ， 只 要 掩 码 是 由 从 最 高 位 开始 的 连续 位 组 成 即 可 (实际 上 这 类 问题 都 是 这 样 ). 

以 我 们 刚刚 给 出 的 这 种 方法 聚合 路 由 的 能 力 只 是 第 一 步 。 想象 一 个 因特网 服务 提供 商 
网 络 ， 它 的 基本 任务 是 为 大 量 公 司 和 校园 (客户 ) 提供 因特网 连接 。 如 果 我 们 按照 这 种 方 
法 来 给 公司 分 配 网 络 号 ， 即 所 有 连 在 此 网 络 上 的 不 同 公 司 都 共享 一 个 公共 地 址 前 组， 那么 
我 们 能 得 到 更 大 程度 上 的 路 由 聚合 。 考 虑 图 3-22 所 示 的 例子 ， 提 供 商 网 络 服务 的 8 个 客 
户 被 分 配 相 邻 的 24 位 网 络 前 级 ， 该 前 级 的 前 21 位 是 相同 的 。 由 于 所 有 客户 均 可 经 同一 个 
提供 商 网 络 到 达 ， 因 此 可 以 通过 通知 它们 共享 的 公用 21 位 前 级 来 向 它们 通知 一 条 路 由 。 
即使 没有 分 配 全 部 24 位 前 级 也 可 以 采用 这 种 通知 方式 ， 只 要 提供 商 最 终 能 够 为 客户 分 配 
那些 前 级 。 做 到 这 一 点 的 一 种 方法 是 提前 给 提供 商 网 络 分 配 一 部 分 地 址 空间 ， 然后 让 网 络 
提供 商 从 此 空间 中 给 它 的 用 户 按 需 分 配 地 址 。 注意 ， 与 这 个 简单 的 例子 不 同 的 是 ， 没 有 必 
要 使 所 有 用 户 前 绥 都 具有 相同 的 长 度 。 





客户 
通知 
128.112.128/21 128,112.128/24 
Fae 128.112.129/24 
ai 128.112.130/24 


S% 


N 
~{ 128.112.135/24 


图 3-22 用 CIDR 进行 路 由 聚合 


2. IP 转发 再 讨论 
至 此 ,在 IP 转发 讨论 中 ,我 们 假设 能 够 找到 一 个 分 组 中 的 网 络 号 ， 然 后 在 转发 表 中 
查找 该 网 络 号 。 然 而 ， 现 在 我 们 引入 了 CIDR， 因 此 需要 重新 考虑 这 个 假设 。CIDR 意味 
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着 前 级 可 以 是 2 一 32 位 的 任意 长 度 。 而且， 有 时 转发 表 中 的 前 级 也 可 能 重合 .也 就 是 说 ， 
某 个 地 址 可 能 与 不 止 一 个 前 级 匹配 。 ioe oo 
(一 个 16 (i hy AAR) 和 171.69.10 (一 个 24 AAD. AHL. — Ae AA 
171. 69. 10. 5 OOBE PAA MITER cease heathy “最 长 匹配 ” 原 
则 ,就 是 说 , 分 组 与 最 长 的 前 级 匹 配 ， 此 例 中 是 171.69.10。 男 一 方面 , 一 个 目标 是 
171. 69. 20. 5 的 分 组 将 匹配 171. 69 而 不 是 171. 69. 10， 如 果 与 路 由 表 中 其 他 记录 都 不 匹 
Ac. 那么 171. 69 将 是 最 长 的 匹配 。 

在 一 个 IP 地 址 和 转发 表 中 的 可 变 长 前 级 之 间 有 效 地 寻找 最 长 匹配 的 任务 ， 近 些 年 已 
经 成 为 了 一 个 富有 成 效 的 研究 领域 ， 本 章 的 “扩展 阅读 ”中 给 出 了 一 些 参 考 资 料 。 最 著名 
的 算法 使 用 了 一 种 叫 作 PATRICIA 树 的 方法 ， 实际 上 它 比 CIDR 得 到 了 更 好 的 研究 。 


3.2.6 地 址 转换 (ARP) 


- 节 我 们 讨论 了 如 何 使 IP 数据 报到 达 正 确 的 物理 网 络 ， 但 是 掩饰 了 数据 报 如 何 到 
ioe 一 特定 主机 或 路 由 器 的 问题 。 主 要 的 问题 是 IP 数据 报 包 含 IP 地 址 ， 但 是 你 
想 要 将 数据 报 传送 到 的 主机 或 路 由 器 上 的 物理 接口 硬件 只 理解 特定 网 络 的 编 址 方案 。 这 
FR. 我们 就 需要 将 IP 地 址 转换 为 这 个 网 络 所 能 理解 的 链 路 层 地 址 (如 一 个 48 位 的 以 太 网 
地 址 )。 然 后 ,我 们 可 以 把 数据 报 封装 到 包含 该 链 路 层 地 址 的 帧 中 ， 并 发 往 最 终 目 的 地 或 
发 往 一 台 可 将 数据 报 传 癌 最 终 目的 地 的 路 由 磊 。 

将 IP 地 址 映射 为 物理 网 络 地 址 的 一 个 简单 的 方法 是 将 主机 的 物理 地 址 编码 在 IP 地 址 
的 主机 部 分 中 。 例 如 ,一 台 主 机 的 物理 地 址 是 00100001 01001001 ee 
数 33， 后 一 个 字 节 是 十 进 制 数 81)， 它 的 IP 地 址 是 128. 96. 33. 81。 尽 管 这 种 解决 办 法 已 
在 一 些 网 络 中 使 用 ， 但 它 仅 限 于 那些 网 络 物理 地 址 不 超过 16 TREND. 在 C 类 网 络 中 ， 
物理 地 址 只 有 8 位 长 。 显 然 ， 这 种 方法 不 适用 于 48 位 长 的 以 太 网 地 址 。 

-个 更 普遍 的 解决 方案 是 为 每 台 主 机 保留 一 张 地 址 对 照 表 ， 也 就 是 说 ， 该 表 将 IP 地 

se 虽然 这 个 表 可 以 由 系统 管理 员 集 中 管理 并 复制 到 网 络 中 的 各 个 主机 

， 但 更 好 的 方法 是 让 每 台 主机 通过 网 络 动态 地 得 到 表 的 内 容 。 这 种 方法 可 以 用 地 址 解析 
(Address Resolution Protocol. ARP) 来 实现 。ARP 的 目标 是 使 网 络 上 的 每 台 主 机 
都 建立 一 张 IP 地 址 和 链 路 层 地 址 间 的 映射 表 。 由 于 这 些 映 射 可 能 会 随时 间 而 改变 〈 例 如 ， 
由 于 一 台 主 机 的 以 太 网 卡 出 现 故 陪 ， 而 被 另 一 个 有 新 地 址 的 卡 替 换 掉 )， 所 以 表 中 的 条 目 
周期 性 地 超时 并 被 删除 。 这 种 情况 每 15 分 钟 发 生 一 次 。 当 前 存储 在 主机 上 的 映射 集合 称 
为 ARP 高 速 绥 存 或 ARP K. 

ARP 充分 利用 很 多 链 路 层 网 络 技 术 ( 如 以太 网 ) 都 支持 广播 这 一 优点 。 如 果 一 台 主 
机 要 发 送 一 个 数据 报 给 已 知 为 同一 网 络 内 的 另 一 台 主 机 (或 路 由 器 ) ( 即 发 送 和 接收 节点 
有 同样 的 网 络 号 ) ， 那 么 它 首 先 检查 缓存 中 的 映射 。 如 果 映 射 不 存在 ， 它 就 需要 调用 网 络 
上 的 地 址 解析 协议 。 该 调用 是 通过 向 网 络 广播 一 个 ARP 查询 来 实现 的 ,查询 中 包含 询问 
的 IP 地 址 (目标 IP 地址 )。 每 台 主 机 接收 到 这 个 查询 并 检查 是 否 与 自己 的 IP 地 址 匹配 。 
如 果 匹 配 ， 该 主机 发 送 一 个 包含 它 的 链 路 层 地 址 的 应 等 信息 给 发 出 查询 的 源 主机 。 源 主机 
将 此 应 答 中 包含 的 信息 添加 到 它 的 ARP RI, 

查询 信息 也 包含 发 送 主机 的 TP 地 址 和 链 路 层 地 址 。 这 样 ， 当 一 台 主 机 广播 一 条 查询 
信息 时 ， 网 络 上 每 台 主 机 都 会 知道 发 送 方 的 链 路 层 地 址 和 IP 地 址 ， 并 将 此 信息 放 入 自己 


122 foe 








的 ARP 表 中 。 然 而 ， 并 不 是 每 台 主机 都 把 这 一 信息 添加 到 ARP 表 中 。 如 果 某 一 主机 的 表 
ar 发 送 主机 的 条 目 ， WACH “WA” ix —A A. H Epi Pt Ae kK E AL 
丢弃 这 一 条 目 。 如 果 某 主机 是 查询 的 目标 ， a sede 发 送 主机 的 条 目 ， 它 也 把 
a 添加 到 自己 的 表 中 。 这 样 做 的 原因 是 ， 源 主机 可 能 要 向 它 发 送 一 个 应 用 
级 消息 ， 并 且 它 最 终 必 须发 一 个 应 答 或 ACK 给 源 主 机 ， 而 这 需要 源 主 机 的 物理 地 址 。 如 
果 某 主机 不 是 目标 主机 ， eas ARPRPRABEUN AA. MAERA ASH REPL 
的 条 目 加 入 到 自己 的 ARP 表 中 。 这 是 因为 这 台 主 机 不 需要 源 主机 的 链 路 层 地 址 ， 没 有 必 
要 在 ARP 表 中 保存 这 条 信息 

图 3-23 4 对 出 了 从 IP 地 址 到 以 太 网 地 址 映射 的 ARP 分 组 格式 。 事实 上 ，ARP 可 以 用 
于 其 他 多 种 映射 ， 主要 区 别 在 于 地 址 长 度 。 除 了 发 送 方 和 目标 方 的 IP 和 和 链 路 层 地 址 外 . 
分 组 还 包括 : 

。 一 个 HardwareType (硬件 类 型 ) 字段 ， 说 明 物 理 网 络 的 类 型 (如 以 太 网 ) 。 

。 一 个 ProtocolType (协议 类 型 ) 字段 ， 说 明 高 层 协议 Cun IP). 

。 HLen (“硬件 ”地 址 长 度 ) 和 PLen (“协议 ”地 址 长 度 ) 字段 ， 分 别 说 明 链 路 层 

地 址 和 高 层 协议 地 址 的 长 度 。 
。 一 个 Operation (操作 ) FR. 说明 是 请 求 还 是 应 答 。 
。 源 硬件 和 目标 硬件 (以 太 网 ) 地 址 和 协议 (IP〉 地 址 。 


0 8 16 31 
硬件 类 型 =1 a 协议 类 型 =0x0800 


| BEEKIE- =48 “协议 地 址 长 度 = 39| 操作 











源 硬 件 地 址 (0- 3 字 节 ) 
源 硬件 地 址 (4 - 5 字 节 ) | 源 协议 地 址 (0~ 1 字 节 ) 


_ 源 协议 地 址 (2 ~ .3 字 节 ) | 目标 硬件 地 址 (0 ~ 1 字 节 ) 


B 目标 硬件 地 址 (2 (2 -5 字 节 ) ROS 
| 目标 协议 地 址 (0- 3 字 节 ) 




















图 3-23 用 于 将 IP 地 址 和 以 太 网 地 址 进行 映射 的 ARP 分 组 格式 


注意 ，ARP 进程 的 结果 可 以 加 在 如 表 4-1 所 示 的 转发 表 中 成 为 额外 的 一 列 。 这 样 ， 例 
如 ， 当 R2 需要 转发 一 个 分 组 到 网 络 2 时 ， 它 不 仅 能 找到 下 一 跳 是 R1， 而 且 能 找到 MAC 
地 址 ， 将 其 加 在 分 组 上 并 发 往 R1。 

结论 ”我 们 现在 已 经 看 到 IP 提供 的 处 理 异 构 性 和 可 扩展 性 的 基本 机 制 。 对 于 异 

构 性 问题 ，IP 首先 定义 一 个 尽力 服务 模型 ， 对 底层 网 络 做 最 少 的 假设 。 更 值得 

注意 的 是 ， 这 个 服务 模型 基于 不 可 靠 的 数据 报 。 然 后 ，IP 做 两 件 重要 的 事情 : 

提供 一 个 公共 的 分 组 格式 (分 段 和 重组 是 使 这 个 格式 适应 不 同 MTU 网 络 的 机 

制 ); 提供 识别 所 有 主机 的 全 局 地 址 空间 (ARP 是 使 全 局 地 址 空间 在 具有 不 同 物 

理 地 址 编 址 方案 的 网 络 上 运行 的 机 制 )。 对 于 可 扩展 性 问题 ，IP 使 用 层次 化 的 聚 

A, 减少 转发 分 组 所 需 的 信息 量 。 特 别 是 ，IP 地 址 被 划分 为 网 络 和 主机 两 部 分 

首先 选择 路 由 将 分 组 发 送 到 目的 网 络 ， 然 后 再 将 分 组 传送 给 这 个 网 络 中 正确 的 

主机 。 
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3.2.7 主机 配置 (DHCP) 

在 2.6 节 我 们 已 经 看 到 ， 以 太 网 地 址 由 制造 商 配 置 到 网 络 适 配器 中 ， 这 样 管理 是 为 了 
保证 这 些 地 址 是 全 球 唯一 的 。 显 然 ， 这 是 保证 连接 到 一 个 以 太 网 〈 包 括 扩展 的 LAN) 的 
任意 主机 集合 有 唯一 地 址 的 充分 条 件 。 而 且 ， 唯一 性 是 我 们 对 以 太 网 地 址 的 全 部 要 求 。 

与 之 相 比 ，IP 地 址 在 一 个 给 定 的 互联 网 中 不 仅 必 须 是 唯一 的 ， 而 且 必 须 反 映 互联 网 
的 结构 。 如 上 所 述 ， 它 们 包括 网 络 部 分 和 主机 部 分 ， 且 对 于 在 同一 个 网 络 中 的 所 有 主机 来 
说 ， 网 络 部 分 必须 相同 。 这 样 。IP 地 址 不 可 能 在 主机 制造 时 就 一 次 配置 好 ， 因 为 那 将 意 
味 着 制造 商 知 道 哪 台 主机 将 要 连 到 哪个 网 络 ， 并 且 意 味 着 一 旦 主机 连接 到 某 个 网 络 ， 就 再 
出 不 能 移动 至 男 一 个 网 络 上 。 因 此 ，IP 地 址 必须 是 可 重新 配置 的 。 | 

除了 IP 地 址 之 外 ， 主 机 在 开始 发 送 分 组 之 前 还 需要 知道 一 些 其 他 信息 。 其 中 最 值得 
注意 的 是 默认 路 由 器 的 地 址 ， 即 当 分 组 的 目的 地 址 和 发 送 主机 不 在 同一 网 络 时 ， 主 机 能 将 
分 组 发 送 到 的 地 方 。 

大 多 数 主机 操作 系统 为 系统 管理 员 或 用 户 提供 一 种 方法 ， 以 手工 方式 配置 主机 所 需 的 
IP 信息 。 然 而 ， 这 样 的 人 工 配 置 有 一 些 明 显 缺 点 。 首 先 ， 在 一 个 大 型 网 络 中 直接 配置 所 
有 主机 工作 量 很 大 ,尤其 是 当 你 意识 到 主机 只 有 进行 配置 之 后 才能 通过 网 络 可 达 时 。 更 重 
要 的 是 ,配置 过 程 非常 容易 出 错 ， 因 为 它 需 要 确保 每 台 主 机 得 到 正确 的 网 络 号 ， 并 且 任 何 
两 台 主 机 不 能 有 同样 的 IP 地 址 。 因 此 需要 有 自动 配置 方法 ， 主 要 方法 是 使 用 动态 主机 配 
置 协议 (Dynamic Host Configuration Protocol , DHCP), 

DHCP 依赖 于 DHCP 服务 器 ，DHCP 服务 器 负责 向 主机 提供 配置 信息 。 一 个 管理 域 
中 至 少 有 一 个 DHCP 服务 器 。 在 最 简单 的 分 层 结构 中 ，DHCP 服务 器 的 功能 就 像 一 个 主 
机 配置 信息 的 中 心 库 。 人 例如， 考虑 在 一 个 大 公司 的 互联 网 中 管理 地 址 的 问题 。DHCP 可 以 
使 网 络 管理 员 不 必 拿 着 一 张 地 址 清单 和 网 络 网 走 遍 公司 的 每 一 台 主 机 以 手工 方式 配置 它 
们 。 相反， 每 台 主 机 的 配置 信息 可 以 存储 在 DHCP 服务 器 中 ,并 当主 机 自 举 或 与 网 络 连 
接 后 ， 由 每 台 主 机 自动 获得 。 然 而 ， 管 理 员 仍 需 选 取 每 台 主 机 接收 的 地 址 并 将 其 存 到 服务 
需 中 。 在 这 个 模型 中 ， 每 台 主 机 的 配置 信息 存储 在 一 张 表 中 ， 此 表 以 某 种 形式 的 唯一 客户 
标识 作为 索引 ， 通 常 是 硬件 地 址 〈 如 它 的 网 络 适 配器 的 以 太 网 地 址 ) o 

一 种 更 成 熟 的 DHCP 用 法 使 网 络 管理 员 不 必 为 单个 的 主机 分 配 地 址 。 在 这 个 模型 中 ， 
DHCP 服务 器 维护 着 一 个 由 它 按 需 分 配给 主机 的 可 用 地 址 的 缓冲 区 。 由 于 现在 只 需要 给 每 
个 网 络 分 配 IP 地 址 的 范围 (全 部 有 相同 的 网 络 号 )， 因 此 在 很 大 程度 上 减少 了 管理 员 所 必 
须 做 的 配置 数量 。 

由 于 DHCP 的 目标 是 使 一 台 主 机 正常 工作 所 需 的 人 工 配置 量 减 至 最 小 ， 如 果 每 台 主 
机 都 必须 配置 一 个 DHCP 服务 器 地 址 的 话 ， 就 达 不 到 这 个 目的 。 因 此 ，DHCP 首先 面临 
的 就 是 找到 服务 吉 的 问题 ， 

为 了 与 一 个 DHCP 服务 关 相 连 ， 一 台新 自 举 或 新 连接 的 主机 发 送 一 条 DHCPDIS- 
COVER 消息 到 一 个 特殊 的 IP 地 址 (255. 255. 255. 255) 广播 地 址 。 这 意味 着 此 条 消 
息 将 被 网 络 上 的 所 有 主机 和 路 由 器 接收 。 (路 由 器 不 转发 这 样 的 分 组 到 其 他 网 络 ， 以 防止 
广播 到 整个 因特网 ,) 在 最 简单 的 情况 下 ， 这 些 节 点 中 的 某 一 个 就 是 网 络 的 DHCP 服务 
需 。 然 后 该 服务 器 应 答 产 生 这 条 发 现 消息 的 主机 〈 所 有 其 他 的 节点 将 忽略 这 条 消息 )。 然 
而 ， 并 不 是 每 个 网 络 都 需要 一 个 DHCP 服务 器 ， 因 为 这 会 浴 在 增加 大 量 需 要 正确 并 一 臻 











配置 的 服务 器 。 因 此 ，DHCP 使 用 中 继 代 理 (relay agent) 的 概念 。 每 个 网 络 上 至 少 有 一 
个 中 继 代 理 ， 它 只 配置 有 一 条 信息 : DHCP 服务 器 的 IP 地 址 。 当 中 继 代理 接收 到 DHCP- 
DISCOVER 消息 时 ， 它 将 这 条 消息 单 播 到 DHCP 服务 器 并 等 待 响 应 .然后 将 响应 回 传 给 
发 出 请 求 的 客户 机 。 从 一 台 主 机 中 继 一 条 消息 到 一 个 远程 DHCP 服务 器 的 过 程 如 图 3-24 
所 示 。 

图 3-25 给 出 了 DHCP 消息 的 格式 。 这 条 消息 实际 上 是 使 用 运行 在 IP 之 上 的 UDP Hh 
议 〈 用 户 数据 报 协 议 ) 来 发 送 的 。 下 一 章 将 讨论 UDP 的 细节 ， 这 里 ， 它 所 做 的 仅 是 提供 
一 个 多 路 分 解 键 ， 表 明 “ 这 是 一 个 DHCP 分 组 ”。 








单 播 到 服务 器 [ee ee eee E 

专 输 TD | 

= os 客户 端 启动 秒 数 标志 | 

__ DHCP 其 他 网 络 4s | o APE | 

中 继 器 Ca, | 客户 端 |P 地 址 (“ 你 的 ”IP 地 下) ”| 

DHCP HRB 。 | _ 服务 器 地 址 | 

广播 | | 延迟 代理 地 址 _ | 
| = : 

| 客户 端 硬件 地 址 ( 16 字 节 ) i 

— | 服务 器 名 ( 64 字 节 ) 

主机 | 


文件 ( 128 字 节 ) 
图 3-24 一 个 DHCP 中 继 代理 从 一 台 主 机 收 到 aie 


选项 
一 条 广播 DHCPDISCOVER 消息 并 且 发 送 
一 个 单 播 DHCPDISCOVER 给 DHCP 服务 器 图 3-25 DHCP 分 组 格式 


DHCP 协议 起 源 于 较 早 的 BOOTP 的 协议 ,因此 分 组 中 的 一 些 字 段 并 不 与 主机 配置 严 
格 相 关 。 当 客户 端 试 图 得 到 配置 信息 时 ， 它 把 其 硬件 地 址 (如 以 太 网 地 址 ) 放 到 chaddr 
(客户 端 硬件 地 址 ) 字段 中 。DHCP 服务 器 填充 yiaddr (“你 的 ”IP 地 址 ) 字段 并 发 送 给 客 
户 端 作为 回答 。 客 户 端 使 用 的 其 他 信息 (如 默认 路 由 器 等 ) 包含 在 options (选项 ) F 
段 中 。 

显然 ,在 DHCP 为 主机 动态 分 配 IP 地 址 的 情况 下 ， 主 机 不 能 无 限期 地 保留 地 址 ， 因 
为 这 样 将 导致 服务 器 最 终 耗 尽 其 地 址 空间 。 同 时 ， 不 能 依靠 主机 归还 其 地 址 ， 因 为 它 可 能 
已 经 前 溃 、 脱 离 网 络 或 关闭 。 因 此 ，DHCP 允许 地 址 在 一 段 时 间 内 被 租用 .一旦 租用 期 
满 ， 服 务 器 就 将 地 址 回收 。 一 个 租用 地 址 的 主机 ， 如 果 仍 连 在 网 络 上 且 功 能 正常 ， 显 然 需 
要 定期 重新 租用 地 址 。 

结论 DHCP 阅 明 了 可 扩展 性 的 一 个 重要 方面 : 网 络 管理 的 可 扩展 性 。 可 扩展 性 

的 讨论 通常 集中 在 使 网 络 设备 不 要 增长 得 太 快 这 一 点 上 ， 而 关注 网 络 管理 复杂 性 

的 增长 也 十 分 重要 。 通 过 允许 网 络 管理 员 给 每 个 网 络 配置 一 个 IP 地 址 范围 ， 而 

不 必 为 每 台 主 机 配置 一 个 IP 地址 ，DHCP 改进 了 网 络 的 可 管理 性 。 

HER. DHCP 也 将 更 多 的 复杂 性 引入 了 网 络 管理 ， 因 为 它 使 物理 主机 和 IP 地 址 之 间 
的 绑 定 更 为 动态 化 。 这 使 得 网 络 管理 员 的 工作 更 加 困难 ， 例 如， 有 必要 定位 一 人 台 出 现 故 障 
的 主机 。 


nn 
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3.2.8 差错 报告 (ICMP) 


下 一 个 问题 是 因特网 如 何 处 理 差 错 。 当 IP 在 数据 报 传送 受阻 而 要 将 其 丢弃 时 ， 例 如， 
当 路 由 器 不 知 如 何 转发 数据 报 或 数据 报 的 一 个 分 片 没有 到 达 目 的 地 时 ， 它 不 能 默默 地 归于 
失败 。IP 总 是 和 网 际 控制 报 文 协 议 (Internet Control Message Protocol. ICMP) 配置 在 
一 起 ， 这 个 协议 定义 了 当 一 台 路 由 器 或 主机 不 能 成 功 处 理 一 个 了 了 数据 报时 ， 向 源 主机 发 
回 的 错误 消息 的 集合 。 例 如 ，ICMP 定义 了 目的 主机 不 可 达 (可 能 是 链 路 差错 )、 重 组 进 
程 失败 、TTL 为 0、IP 首部 校 验 和 出 错 等 差错 消息 。 

ICMP 也 定义 了 路 由 器 可 发 回 源 主机 的 少量 控制 信息 。 最 有 用 的 一 种 控制 信息 叫 作 
ICMP 重 定向 (ICMP-Redirect)， 它 告知 源 主机 有 一 条 更 好 的 到 达 目 标的 路 由 。'ICMP E 
定向 用 于 以 下 情况 。 假 设 一 台 主 机 连接 到 一 个 连 有 两 台 路 由 器 RI 和 R2 的 网 络 ， 主机 使 
用 R1 作为 默认 路 由 器 。 若 R1 接 到 一 个 来 自主 机 的 数据 报 ， 而 它 根据 转 发 表 得 知 ， 对 于 
某 一 特定 目的 地 址 来 说 R2 会 是 更 好 的 选择 ， 于 是 它 发 回 一 个 ICMP 重 定向 给 主机 ， 指 示 
主机 对 其 余 以 该 地 址 为 目的 地 的 数据 报 使 用 R2。 然 后 ， 主 机 将 这 个 新 路 由 加 到 转发 表 中 。 

ICMP 还 为 两 个 广泛 使 用 的 调试 工具 ping 和 traceroute 提供 了 基础 。ping 使 用 ICMP 
回应 消息 来 判断 一 个 节点 是 否 可 达 且 正在 运行 。traceroute 使 用 一 种 不 太 直 接 的 技术 来 判 
断 到 目的 节点 的 路 径 上 的 路 由 器 集 合 ， 在 本 章 最 后 的 习题 中 有 一 道 相关 的 习题 。 


3.2.9 虚拟 网 络 和 隧道 


我 们 通过 考虑 一 个 也 许 你 尚未 预见 但 变 得 越 来 越 重 要 的 问题 来 结束 对 IP 的 介绍 。 至 
此 ， 我 们 讨论 的 焦点 是 使 不 同 网 络 上 的 节点 能 够 以 一 种 不 受 限制 的 方式 进行 通信 。 这 通常 
是 因特网 的 目标 人 人 都 希望 能 将 电子 邮件 发 给 任何 人 ,一 个 新 网 站 的 创建 者 希望 能 有 
尽 可 能 多 的 访问 者 。 人 然而， 更 多 的 情况 下 需要 更 可 控 的 连接 。 这 种 情况 的 一 个 重要 例子 就 
是 虚拟 专用 网 (Virtual Private network, VPN), 

术语 VPN 被 大 量 地 重复 使 用 ， 并 有 各 种 各 样 的 定义 ， 但是, 我们 通过 考查 专用 网 的 
基本 思想 来 直观 地 定义 VPN。 拥 有 很 多 站 点 的 公司 经 常 通过 从 电话 公司 租用 传输 线路 将 
网 站 互联 起 来 建造 专用 网 。 在 这 样 的 网 络 中 ,通常 出 于 安全 性 的 考虑 ， 通 信 被 严格 限制 在 
本 公司 的 网 站 间 进 行 。 为 使 专用 网 成 为 虚拟 的 〈virtual) ， 对 于 那些 不 与 其 他 任何 公司 共 
享 的 租用 传输 线路 ， 可 用 某 种 共享 网 络 代 蔡 。 一 条 虚 电路 (VC) 是 非常 合适 的 租用 线路 
符 代 品 ， 因 为 它 仍 在 公司 的 站 点 间 提 供 逻 辑 的 点 到 点 连接 。 例 如 ， 如 果 公 司 X 有 一 条 从 站 
SAB BA VC, MARAE Heme A 和 BB 之 间 发 送 分 组 。 但 是 公司 Y 如 果 不 事先 
建立 它 自己 到 站 点 B 的 虚 电 路 ， 就 不 能 将 分 组 发 送 到 B， 而 在 管理 上 可 禁止 建立 这 样 的 
VC 以 防 出 现 公司 X 和 公司 Y 之 间 不 希望 的 连接 。 

图 3-26a 给 出 了 两 个 不 同 公司 的 专用 网 。 在 图 3-26b 中 ， 它 们 都 移植 到 一 个 虚 电 路 网 
络 中 。 真正 的 专用 网 中 保持 着 有 限 的 连接 ,但 是 由 于 专用 网 现在 共享 相同 的 传输 设备 和 交 
换 机 ， 因 此 我 们 说 建立 了 两 个 虚拟 专用 网 。 

在 图 3-26 中 ， 使 用 帧 中 继 或 ATM 网 络 来 提供 站 点 之 间 的 受 控 连接 。 使 用 IP 网 络 

互联 网 岂可 以 提供 类 似 功 能 的 连接 。 然 而， 我 们 不 能 将 不 同 公司 的 网 站 连 到 一 个 
单一 互联 网 上 ， 因 为 那样 将 提供 公司 X 与 公司 Y 之 间 的 连接 ， 而 这 种 连接 是 我 们 希望 避 
多 的 。 为 解决 这 个 问题 ， 我 们 需要 引信 一 个 新 的 概念 IP 取道 (IP tunnel), 
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X 公 司 专用 网 (K) © fie} 
HL) eo 一 物理 链 路 
on ORNO, 
虚 电 路 
Y 公 司 专用 网 
a) 两 个 分 离 的 专用 网 b) 两 个 虚拟 专用 网 共享 一 台 交 换 机 


图 3-26 虚拟 专用 网 络 的 例子 


我 们 可 以 把 IP 隧道 想象 成 一 对 节点 间 的 一 条 虚拟 的 点 到 点 链 路 ,这 对 节点 之 间 事 实 
上 可 相隔 任意 多 个 网 络 。 通 过 将 隧道 远 端 路 由 器 的 TP 地 址 提供 给 虚 链 路 .就 可 以 在 隧道 
入口 处 的 路 由 器 之 间 创 建 虚 链 路 。 无 论 何 时 当 隧 道 入 口 处 的 路 由 器 想 要 通过 这 个 虚 链 路 发 
送 一 个 分 组 时 ， 它 就 把 分 组 封装 在 一 个 IP 数据 报 中 。IP 首部 中 的 目的 地 址 是 隧道 远 端 的 
路 由 器 地 址 ， 而 源 地 址 是 封装 分 组 的 路 由 器 地 址 。 

在 隧道 入 口 路 由 器 的 转发 表 中 ， 这 条 虚 链 路 更 像 一 条 普通 的 链 路 。 例 如 ,考虑 图 3-27 
中 的 网 络 。 网 络 中 已 经 配置 了 一 条 从 R 到 R2 的 隧道 ， 并 设置 虚拟 接口 号 为 0。R1 的 转 
发 表 如 表 3-8 所 示 。 





RI - 
m HS 互联 网 CD 网络 2 
18.5.0.1 
,A 一 一 一 一 一 一 一 
| IPAR, IP 首 部 ， | 
| 目标 =18.5.0.1 目标 一 2 | 
| PŘŠ, rs | 
| 目标 =2.x IPH SAK fat 
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TIP 有 效 载荷 
图 3-27 贯穿 互联 网 的 隧道 。18. 5.0.1 是 R2 能 够 通过 互联 网 到 达 RI 的 地 址 


Rl 有 两 个 物理 接口 。 接 口 0 连接 网 络 1; 接 表 3-8 图 3-27 中 路 由 器 R1 的 转发 表 


















O 1 连接 一 个 大 型 互联 网 ， 并 且 是 转发 表 中 所 有 网 络 号 Ta 
未 确切 说 明 的 通信 量 的 默认 接口 。 另 外 ，R1 有 一 T 
个 虚拟 接口 ， 即 到 隧道 的 接口 。 假 设 R1 从 网 络 1 ay 





接收 一 个 含有 网 络 2 中 地 址 的 分 组 ， 转 发 表 认 为 
这 个 分 组 应 从 虚拟 接口 0 发 出 。 为 了 从 此 接口 发 出 分 组 ， 路 由 器 接收 这 个 分 组 .加 上 一 个 
目标 为 R2 的 IP 首部 ， 然 后 就 像 刚 刚 接收 到 它 一 样 继续 转发 这 个 分 组 。R2 的 地 址 是 
18. 5.0. 1， 由 于 这 个 地 址 的 网 络 号 是 18， 不 是 1 或 2， 因 此 目标 是 R2 的 分 组 将 从 默认 接 
口 转发 到 互联 网 。 
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一 旦 分 组 离开 了 R1， 它 就 像 一 个 目标 是 R2 的 普通 IP 分 组 一 RS 互联 
tbs rg BRAKE wh RRA SE 直到 它 到 达 R2, 4 R2 接收 到 这 个 分 
组 时 ， 发 现 它 携带 着 自己 的 地 址 ， 因 此 将 IP 首部 删除 ， 人 RRA 
的 是 一 个 内 部 IP 分 组 .其 目的 地 址 在 网 络 2 中 。 现 在 ，R2 像 对 待 其 他 所 有 接收 到 的 IP 
分 组 一 样 处 理 这 个 分 组 。 由 于 R2 直接 与 网 络 2 相连 ， 所 以 直接 将 该 分 组 转发 到 网 络 2。 
图 3-27 给 出 了 分 组 穿 过 网 络 时 分 组 封装 中 的 变化 。 





管 R2 充当 隧道 的 末端 点 ， 但 不 影响 它 执行 路 由 器 的 正常 功能 。 例 如 ， 它 可 以 接收 
非 隧道 的 分 组 ， 但 这 些 分 组 包含 它们 知道 如 何 到 达 的 网 络 的 地 址 ， 然 后 它 将 按照 正常 方式 
进行 转发 。 


也 许 你 想 知 道 为 什么 人 们 如 此 麻烦 地 建造 一 条 隧道 并 且 在 分 组 穿 过 互联 网 时 改变 其 封 
装 。 其 中 一 个 原因 是 安全 性 ， 我 们 将 在 第 8 章 详细 讨论 。 由 于 增加 了 加 密 ， 隧 道 可 以 变 成 

条 穿 过 公用 网 络 的 专用 链 路 。 另 一 个 原因 是 ，R1 和 R2 有 一 些 其 他 参与 网 络 所 没有 的 能 

如 多 播 路 由 。 本 过 将 这 些 路 由 器 与 隧道 相连 我 们 可 以 建造 一 个 虚拟 的 网 络 ， 其 中 所 
en E 力 的 路 由 器 部 好 像 直接 相连 一 样 。 这 事实 上 就 是 多 播 主 干 网 (MBone) 的 建造 
HE. 我们 将 在 4. 2 节 介 绍 它 。 gin grec agit 
络 。 只 要 隧道 两 器 的 路 由 器 知道 如 何 处 理 其 他 协议 ，IP 隧道 对 它们 来 说 就 像 一 条 能 发 
JE IP 分 组 的 点 到 点 链 路 。 隧 道 也 提供 这 样 一 种 机 制 pid a 
的 原 首 部 表明 它 应 传送 到 别处 ， 我 们 也 能 强制 把 它 传送 到 一 个 特定 的 地 点 。 我 们 在 4. 4.2 
节 考 虑 移动 主机 时 将 看 到 这 种 应 用 。 因 此 ， 可 以 看 出 隧道 是 建造 穿 过 互联 网 的 虚拟 链 路 的 
一 种 强 有 力 的 和 非常 普通 的 技术 。 

隧道 技术 也 有 人 缺点 。 第 一 ， 它 增加 了 分 组 长 度 ， 对 于 短 分 组 来 说 这 可 能 意味 着 对 带宽 
的 严重 浪费 。 其次， 它 也 将 影响 隧道 两 端 路 由 器 的 性 能 ， 因 为 它们 将 做 一 些 超出 正常 转发 
的 工作 ， 如 添加 和 删除 隧道 首部 。 最 后 ， 它 还 会 增加 一 些 管理 实体 的 管理 开销 ， 这 些 实体 
负责 设置 隧道 并 确保 它们 能 被 路 由 协议 正确 处 理 。 


3.3 路 由 


前 面 的 讨论 都 假设 交换 机 和 路 由 需 充 分 了 解 网 络 的 拓扑 结构 ， 所 以 它们 能 为 每 个 分 组 
选择 一 个 合适 的 输出 端口 。 在 虚 电 路 中 ， 路 由 仅 仪 是 连接 请 求 分 组 的 问题 ， 所 有 的 后 续 分 
组 都 与 连接 请 求 分 组 经 过 同样 的 路 径 。 在 数据 报 网 络 〈 包 括 IP 网 络 ) 中 ， 每 个 分 组 都 要 
进行 路 由 。 无 论 在 哪 种 情况 下 ， 交 换 机 或 路 由 器 都 需要 查看 分 组 的 目的 地 址 ， 然 后 决定 哪 
一 个 输出 端口 是 将 分 组 传送 到 那个 目的 地 址 的 最 好 选择 。 就 像 我 们 在 3.1.1 节 中 看 到 的 ， 
交换 机 通过 查询 转发 表 来 做 这 个 决定 。 路 由 最 基本 的 问题 是 ， 交 换 机 和 路 由 器 如 何 获得 转 
发 表 中 的 信息 。 
结论 ”我们 重申 转发 (forwarding) 和 路 由 (routing) 之 间 常 被 妃 视 的 重要 区 
别 。 转 发 过 程 包 括 : 接收 一 个 分 组 ， | 查询 转发 表 ， 按 表 中 决 
定 的 路 径 把 分 组 转发 出 去 。 我们 已 经 在 前 面 一 节 见 过 几 个 转发 的 例子 。 路 由 是 用 
于 建立 转发 表 的 过 程 。 我 们 还 需 注 意 ， 转 发 是 KE 个 节点 上 本 地 执行 的 一 个 相对 
简单 、 定 义 良 好 的 过 程 ， 而 路 由 依赖 于 在 网 络 发 展 过 程 中 不 断 演进 的 、 复杂 的 分 
布 式 算法 。 
里 然 转 发 表 (forwarding table) 和 路 由 表 (routing table) 这 两 个 术语 有 时 会 交 蔡 使 
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用 ， 但 我 们 在 此 加 以 区 别 。 在 分 组 转发 时 使 用 转发 表 ， 因 此 转发 表 需 要 包含 足够 的 信息 来 
完成 转发 功能 。 这 就 意味 着 ， 转 发 表 中 的 一 行 包 括 从 网 络 号 到 发 出 接口 的 映射 和 一 些 
MAC 信息 ， 如 下 一 跳 的 以 太 网 地 址 。 另 一 方面 ， 路 由 表 作 为 建立 转发 表 的 前 奏 ， 是 由 路 
由 算法 建立 的 一 张 表 ， 它 通常 包含 从 网 络 号 到 下 一 跳 的 映射 。 此 外 ， 它 可 能 还 包含 如 何 得 
到 这 些 信息 的 信息 ， 以 便 路 由 器 决定 何 时 丢弃 某 些 信息 。 

路 由 表 和 转发 表 是 否 是 实际 上 独立 的 数据 结构 与 实现 时 的 选择 有 关 ， 但 保持 它们 彼此 
的 独立 性 有 很 多 原因 。 例 如 ， 构 造 转发 表 是 为 优化 转发 分 组 时 查找 网 络 号 的 过 程 ， 而 优化 
路 由 表 是 为 了 计算 拓扑 结构 的 改变 。 有 时 ， 转 发 表 甚 至 可 以 由 某 些 特殊 的 硬件 来 实现 ， 而 
路 由 表 很 少 这 样 。 表 3-9 给 出 每 种 表 中 的 一 行 的 示例 。 在 这 种 情况 下 ， 路 由 表 告 诉 我 们 网 
络 前 级 18/8 是 通过 IP 地 址 为 171. 69. 245. 10 的 下 一 跳 路 由 器 到 达 的 ， 而 转发 表 则 包含 如 
何 确切 转发 一 个 分 组 到 下 一 跳 的 信息 : 把 它 发 送 到 MAC 地 址 为 8: 0: 2b: e4: b; 1; 2 
的 接口 号 0。 注意 最 后 一 条 信息 是 由 地 址 解析 协议 提供 的 。 


表 3-9 路 由 表 和 转发 表 一 行 的 示例 






b) 转发 表 
接口 | MAC 地 址 


8:0;2b:e4:b:1;2 





a) 路 由 表 
| 下 一 跳 
171. 69. 245. 10 








18/8 


前 级 /长 度 
18/8 





















在 了 解 路 由 的 细节 之 前 ,需要 回忆 一 下 ， 每 当 我 们 试图 为 因特网 建立 一 种 机 制 时 都 应 
问 的 一 个 关键 问题 : 这 个 解决 方案 可 扩展 吗 ? 这 一 节 描 述 的 算法 和 协议 将 回答 不 能 . E 
们 是 为 中 等 规模 〈 即 实际 少 于 100 个 节点 ) 的 网 络 设 计 的 。 然 而 . 我 们 描述 的 解决 方案 的 
确 是 今天 因特网 使 用 的 层次 性 路 由 基础 结构 的 一 个 构件 。 特 别 地 ， 本 节 描 述 的 协议 统称 为 
域内 (intradomain) 路 由 协议 ， 或 内 部 网 关 协 议 (interior gateway protocol, IGP). 为 了 
理解 这 些 术 语 ， 我 们 需要 定义 路 由 域 (domain)， 路 由 域 的 一 个 不 错 的 定义 就 是 一 个 互联 
网 ， 其 中 所 有 路 由 器 都 处 于 统一 管理 控制 之 下 (例如 ， 一 所 大 学 的 校园 网 或 一 个 因特网 服 
务 提供 商 的 网 络 )。 定 义 之 间 的 相关 性 将 在 下 一 节 讨 论 域 间 (interdomain) 路 由 协议 时 变 
得 更 加 清楚 。 至 此 ， 需 要 记 住 的 一 件 重要 的 事情 是 我 们 是 在 中 小 型 网 络 的 范围 内 考虑 路 由 
问题 ， 而 不 是 因特网 那么 大 的 网 络 。 


3.3.1 用 图 表示 网 络 


路 由 本 质 上 是 图 论 问 题 。 图 3-28 给 出 一 个 表示 网 络 的 图 。 图 中 标 有 A~ 下 的 节点 可 以 
是 主机 、 交 换 机 、 路 由 器 或 网 络 。 在 开始 讨论 时 ， 我 们 专注 于 考虑 节点 都 是 路 由 器 的 情 
况 。 图 中 的 边 对 应 于 网 络 中 的 链 路 ， 每 条 边 都 有 一 个 相 


应 的 开销 (cost)， 表 示 希 望 通过 这 段 链 路 发 送 的 通信 por. 
量 。3. 3.4 节 将 讨论 如 何 赋予 边 上 的 开销 .9 one Omens 
路 由 最 基本 的 问题 就 是 找 出 任意 两 个 节点 之 间 开 销 4 


最 小 的 路 径 ， 一 条 路 径 的 开销 等 于 组 成 这 条 路 径 的 所 有 〈c 一 (人 ) 
边 上 的 开销 之 和 。 对 于 像 图 3-28 中 那样 的 简单 网 络 ， 你 ” ” 图 3-28 用 图 表示 网 络 





O “在 本 章 通 篇 采用 的 这 个 网 络 〈 图 ) 例子 里 ， 我 们 采用 无 向 边 并 为 每 条 边 分 配 一 个 开销 。 这 的 确 是 一 种 简化 
更 精确 的 方式 是 采用 有 向 边 ， 表 明 每 个 节点 间 都 有 一 对 边 ， 它 们 都 在 各 自 的 方向 上 且 有 自己 的 边 开销 
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可 以 想象 计算 出 所 有 的 最 短路 径 ， 并 将 它们 放 人 每 一 节点 的 某 个 非 易 失 性 存储 器 中 。 但 这 
种 静态 方法 有 以 下 几 个 缺点 : 

。 它 不 处 理 节点 或 链 路 故障 。 

。 它 不 考虑 新 的 节点 或 链 路 的 增加 。 

。 它 意 味 着 边 的 开销 不 能 改变 ， 尽 管 我 们 可 能 有 理由 希望 给 一 条 重负 载 的 链 路 临时 

指定 一 个 高 开销 。 

由 于 这 些 原因 ,在 大 多 数 实际 的 网 络 中 ， 路 由 由 运行 在 节点 间 的 路 由 协议 来 实现 。 这 
些 协议 提供 了 一 种 分 布 式 的 、 动 态 的 方法 来 解决 在 链 路 和 节点 出 现 故 障 时 寻找 最 小 开销 路 
径 以 及 改变 边 上 开销 的 问题 。 注 意 分 布 式 (distributed) 这 个 词 ， 很 难 使 集中 式 解决 方案 
成 为 可 扩展 的 ， 因 此 所 有 被 广泛 使 用 的 路 由 协议 都 采用 分 布 式 算法 。9 ' 

路 由 算法 的 分 布 式 特性 是 人 们 对 这 个 领域 进行 大 量 研究 和 开发 的 主要 原因 之 一 一 一 在 
使 分 布 式 算法 更 好 地 工作 方面 还 面临 许多 挑战 。 例 如 ， 分 布 式 算法 会 产生 这 样 的 可 能 : 在 
同一 时 刻 ， 两 台 路 由 器 对 于 到 某 个 目的 地 的 最 短路 径 有 不 同 的 判断 。 事 实 上 ， 每 台 路 由 器 
可 能 会 认为 另 一 个 路 由 器 到 目标 更 近 些 ， 从 而 决定 将 分 组 发 往 另 一 台 路 由 器 。 显 然 ， 这 样 
的 分 组 将 会 陷入 循环 ， 直到 这 两 台 路 由 器 之 间 的 矛盾 得 以 解决 ， 而 且 越 早 解决 越 好 。 这 只 
是 路 由 协议 必须 解决 的 问题 中 的 一 个 例子 。 

在 开始 分 析 之 前 ， 我 们 假设 已 知 网 络 中 边 的 开销 。 下 面 我 们 将 研究 两 类 主要 的 路 由 协 
以 : 距离 向 量 (distance vector) 和 和 链 路 状态 (link state)。 在 3.3.4 节 我 们 回 到 以 一 种 有 
针对 性 的 方式 计算 边 上 开销 的 问题 。 


3.3.2 距离 向 量 (RIP)s 


距离 向 量 算法 的 内 在 思想 正如 它 的 名 字 所 揭示 的 那样 ， 每 个 节点 构造 一 个 包含 到 所 
有 其 他 节点 “距离 ”( 开 销 ) 的 一 维 数组 (一 个 向 量 )， 并 将 这 个 向 量 分 发 给 它 的 邻接 点 。 
对 距离 向 量 路 由 所 作 的 初始 假设 是 每 个 节点 都 知道 到 其 直接 邻接 点 的 链 路 开销 ， 到 不 相 邻 
节点 的 链 路 开销 被 指定 为 无 穷 大 。 

要 明白 距离 向 量 路 由 算法 如 何 工作 ， 考 虑 如 
图 3-29 所 描述 的 例子 是 最 容易 的 。 在 这 个 例子 中 ， 
每 条 链 路 的 开销 设 为 1， 所 以 开销 最 小 的 路 径 就 是 
包含 跳 数 最 少 的 路 径 (因为 所 有 边 都 具有 相同 的 
开销 ,我 们 在 图 中 没有 标 出 开销 )。 我 们 可 以 将 每 
个 节点 到 所 有 其 他 节点 的 距离 信息 表示 为 一 个 表 ， 
如 表 3-10 所 示 。 注 意 ， 每 个 节点 只 知道 表 中 一行 图 3-29 距离 向 量 路 由 的 网 络 例子 
的 信息 〈 左 列 标 有 其 名 字 的 那 一 行 )。 网 络 中 任何 一 个 节点 都 不 能 使 用 这 里 给 出 的 网 络 全 
局 视 网 。 

我 们 可 以 把 表 3-10 中 的 每 一 行 视 作 一 个 节点 到 所 有 其 他 节点 的 距离 列表 ， 代 表 这 个 
节点 的 当前 判断 。 最 初 ， 每 个 节点 都 把 到 直接 邻接 点 的 开销 赋值 为 1， 到 所 有 其 他 节点 的 














这 一 广泛 使 用 的 假设 近 些 年 得 到 了 调 次 检验 详 见 “扩展 阅读 ”部 分 。 
参见 “实验 六 ” 
此 类 算法 的 一 个 通用 名 字 是 Bellman-Ford， 即 其 发 明 者 的 和 名字， 
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表 3-10 存储 在 每 个 节点 中 的 初始 距离 (全 局 视图 ) 
存储 在 节点 到 每 个 节点 的 距离 
的 信息 A B € D E | F | G 
A 0 1 1 i 1 
B 1 0 1 
€ 1 ] 0 1 | 
D x | 1 0 1 
E 1 
F 1 下 0 1 


























开销 赋值 为 无 穷 大 。 这 样 最 初 A 点 知道 它 可 以 经 一 跳 到 达 B， 而 了 D 是 不 可 达 的 。 存储 在 A 
中 的 路 由 表 反 映 了 这 样 的 信念 ， 并 且 包 括 A 用 来 到 达 其 他 任何 可 达 节 点 的 下 一 跳 的 名 字 . 
于 是 ， 最 初 A 的 路 由 表 如 表 3-11 所 示 。 

距离 向 量 路 由 的 下 一 步 是 每 个 节点 发 送 一 个 包含 自己 距离 表 的 消息 给 其 相 邻 节点 。 例 
如 ， 节 点 下 告诉 节点 A 它 可 以 到 节点 G， 开 销 为 1; A 也 知道 它 能 以 开销 1 到 达 下 ,因此 
二 者 相 加 就 可 以 得 到 经 F 到 G 的 开销 。 总 开销 2 小 于 当前 的 开销 无 穷 大 .因此 Aide 
可 经 下 到 达 G， 开 销 为 2。 类 似 地 ， A 从 C 得 知 ,C 能 以 开销 1 到达 D; A 将 此 与 到 C 的 
开销 1 相 加 ， 决 定 可 通过 C 以 开销 2 到 达 D， 优 于 旧 的 开销 无 穷 大 。 同 时 ，A 从 C 得 知 ， 
C 能 以 开销 1 到达 B， 因 此 它 推 断 经 C 到 B 的 开销 为 2。 由 于 这 比 当 前 A 到 B 的 开销 1 
大 ， 因 此 新 的 信息 被 忽略 。 

至 此 ，A 能 够 更 新 路 由 表 中 所 有 网 络 节点 的 开销 和 下 一 跳 ， 结 果 如 表 3-12 所 示 。 


表 3-11 节点 A 的 初始 路 由 表 表 3-12 节点 A 的 最 终 路 由 表 
































目的 地 目的 地 开销 下 一 跳 

B B I B 

C G ] Cc 
D 2 E 
E [ l | E E | ıı | E i 

F 1 | F F l F 

G : G 2 F 
当 拓 扑 结构 不 变 时 ， 每 个 节点 只 需 与 相 邻 节点 之 间 交 换 少 量 信息 即 可 得 到 完整 的 路 由 


表 。 得 到 所 有 节点 的 路 由 信息 的 过 程 叫 作 收 化 〈convergence)。 表 3-13 给 出 了 路 由 收敛 后 
从 每 个 节点 到 其 他 节点 的 一 组 最 终 开 销 。 我 们 必须 强调 ， 网 络 中 没有 任何 一 个 节点 有 这 张 
表 的 所 有 信息 ， 每 个 节点 只 知道 它 自 己 的 路 由 表 的 内 容 。 像 这 样 的 分 布 式 算法 的 优点 就 是 
它 能 使 所 有 节点 在 没有 任何 集中 授权 的 情况 下 取得 对 网 络 的 一 致 视图 。 


表 3-13 存储 在 每 个 节点 的 最 终 距 离 (全 局 视图 ) 








存储 在 节点 到 每 个 节点 的 距离 
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在 结束 有 关 距 离 向 量 路 由 的 讨论 之 前 ， 还 要 插 进 一 些 细节 。 首 先 ， 我 们 注意 在 两 种 情 
况 下 ,一 个 给 定 的 节点 决定 发 送 路 由 更 新 消息 给 它 的 相 邻 节点 。 一 种 情况 是 定期 (period- 
ic) 更 新 。 在 这 种 情况 下 ， 即 使 没有 任何 变化 ， 每 个 节点 也 总 要 时 常 自 动 发 送 更 新 消息 。 
这 使 其 他 节点 知道 它 仍 在 正常 运行 中 。 这 样 也 可 以 确保 当 现 有 路 由 不 可 用 时 ， 它们 仍 能 一 
直 得 到 所 需 的 信息 。 这 些 定期 更 新 的 频率 随 协 议 的 不 同 而 不 同 ， 但 一 般 都 是 几 秒 到 几 分 钟 
进行 一 次 。 第 二 种 情况 有 时 称 为 触发 (triggered) 更 新 ， 每 当 一 个 节点 通知 链 路 故障 或 从 
它 的 相 邻 节点 接收 到 导致 路 由 表 中 路 由 发 生 改变 的 更 新 时 ， 便 会 引发 这 种 更 新 。 也 就 是 
说 ， 当 一 个 节点 的 路 由 表 改 变 时 ， 它 就 给 其 相 邻 节点 发 送 一 条 更 新 消息 ， 这 可 能 引起 相 邻 
节点 的 路 由 表 改 变 ， 使 得 这 些 相 邻 节 点 又 给 它们 的 相 邻 节点 发 送 更 新 消息 。 

现在 ,我 们 考虑 一 下 当 链 路 或 节点 发 生 故 障 时 会 发 生 什 么 。 首 先 注意 到 这 个 问题 的 节 
点 发 送 新 的 距离 列表 给 它 的 相 邻 节点 ， 正常 情况 下 ， 系 统 会 很 快 平静 地 达到 一 种 新 的 状 
态 。 至 于 一 个 节点 如 何 探查 故障 ， 有 两 种 不 同 的 答案 。 一 种 途径 是 ， 节 点 通过 发 送 控制 分 
组 持续 地 检测 到 男 一 节点 的 链 路 ,并 查看 是 否 接收 到 确认 。 男 一 种 途径 是 ， 如果 节点 在 最 
近 几 次 更 新 周期 中 接收 不 到 预期 的 定期 更 新 ， 则 确定 该 链 路 (或 链 路 男 一 端的 节点 ) 发 生 
故障 。 

为 了 明白 当 一 个 节点 检测 到 一 条 链 路 故障 时 将 会 怎样 ， 我 们 来 看 当 节点 下 发现 它 到 G 
的 链 路 发 后 故障 时 的 情况 。 首先 , 下 设置 到 G 的 新 距离 值 为 无 穷 大 ， 然 后 把 这 条 信息 传 给 
A, 由 于 A 知道 自己 到 G 的 2 跳 路 径 经 过 F， 所 以 A 也 把 它 到 G 的 距离 设 为 无 穷 大 。 但 
是 ， 从 C 送 来 的 下 一 次 更 新 中 ，A 将 得 知 C 有 一 个 2 跳 路 径 到 G。 这 样 ，A 就 知道 它 可 以 
经 过 C 以 3 跳 的 距离 到 达 G， 这 个 开销 小 于 无 穷 大 ， 所 以 A 相应 地 更 新 它 的 转发 表 。 当 A 
把 更 新 消息 通知 下 时 ,下 即 知 可 以 经 过 A 以 开销 4 到 达 G， 这 个 开销 小 于 无 穷 大 ， 从 而 系 
统 将 重新 达到 稳定 。 

遗憾 的 是 ， 略 有 不 同 的 情况 就 可 能 阻碍 网 络 的 稳定 。 例 如 ， 假 设 从 A 到 王 的 链 路 出 
现 故 障 。 在 下 一 次 更 新 周期 中 ，A 通知 到 EE 的 距离 为 无 穷 大 , 但 是 B 和 C 通知 到 下 的 距 
离 为 2。 根 据 事件 发 生 的 确切 时 序 ， 可 能 发 生 如 下 事件 : 节点 也 一 旦 知道 从 C 可 以 2 跳 的 
距离 到 达 EE 时， 就 断定 它 可 以 3 MRN E. 并且 把 这 条 更 新 信息 通知 A; 节点 A 断定 它 能 
以 4 跳 到 达 下 ,并 把 这 条 信息 通知 C; 节点 C 断定 它 能 以 5 跳 到 达 E; 依 此 类 推 。 只 有 当 
距离 值 达到 一 个 足以 被 认为 是 无 穷 大 的 值 时 ， 循 环 才 会 停止 。 其 间 ， 没 有 一 个 节点 真正 知 
道 下 是 不 可 达 的 ， 网 络 的 路 由 表 不 能 达到 稳定 。 这 种 情况 叫 作 计数 到 无 穷 (count-to-in- 
finity) 问题 。 

现 有 几 种 可 使 此 问题 得 到 部 分 解决 的 办 法 。 第 一 种 办 法 是 使 用 一 个 相对 较 小 的 数 作为 
无 穷 大 的 近似 值 。 例 如 ， 我 们 可 以 推断 穿 过 某 个 特定 网 络 的 最 大 跳 数 不 会 超过 16， 因 此 可 
以 选择 16 来 表示 无 穷 大 。 这 至 少 可 以 限制 计数 到 无 穷 大 所 花费 的 时 间 。 当 然 ， 如 果 我 们 
的 网 络 增长 到 某 些 节点 的 距离 大 于 16 跳 时 ， 又 会 出 现 问题 。 

改进 稳定 路 由 时 间 的 一 种 技术 称 为 水 平分 割 (split horizon) 。 其 思想 是 当 一 个 节点 把 
路 巾 的 更 新 消息 发 送 给 相 邻 节点 时 ， 它 并 不 把 从 各 个 相 邻 节点 处 学 到 的 路 由 再 回 送 给 该 节 
点 。 例 如 ， 如 果 节 点 B 在 其 表 中 有 路 由 信息 Œ, 2, A., 那么 它 就 知道 该 路 由 一 定 是 从 
节点 A 学 到 的 。 所 以 不 论 BB 什么 时 候 给 A 发 送 更 新 消息 时 ， 其 中 都 不 包括 路 由 CE. 2), 
水 平分 割 的 一 种 增强 变形 称 为 带 反 向 抑制 的 水 平分 割 (split horizon with poison reverse). 
这 种 方法 中 B 确实 把 来 自 A 的 路 由 回 送 给 A， 但 在 该 路 由 中 加 入 否定 信息 来 确保 A 最 终 








不 会 使 用 BEA E., fin, BIER CE, oo) 发 送 给 A。 这 两 种 技术 的 问题 在 于 它们 只 
在 涉及 两 个 节点 的 路 由 循环 中 有 效 ， 对 于 更 大 的 路 由 循环 要 求 有 更 强 的 措施 .继续 以 上 的 
例子 ， 如 果 B 和 C 接收 到 A 的 链 路 故障 后 ， 在 把 路 由 通知 给 上 之 前 等 待 一 段 时 间 ， 它 们 
就 会 发 现 ， 实 际 上 两 者 都 没有 到 达 刁 的 路 由 。 不 幸 的 是 这 种 方法 延迟 了 协议 的 收敛 ， 收 线 
速度 是 它 的 竞争 对 手链 路 状态 路 由 (3. 3. 3 节 的 主要 内 容 ) 的 主要 优势 之 

1. 实现 

实现 这 个 算法 的 代码 非常 简单 ， 在 这 里 我 们 只 给 出 了 最 基本 的 一 些 代码 。 结 构 Route 

定义 了 路 由 表 中 的 每 一 条 记录 ， 常 量 MAX_TTL 说 明 每 一 记录 在 被 丢弃 之 前 可 以 在 表 中 
保留 多 长 时 间 。 

#define MAX_ROUTES 128 /* maximum size of routing table + 

#tdefine MAX_TTL 120 /* time (in seconds) until route expires */ 


typedef struct | 


NodeAddr Destination; /* address of destination */ 
NodeAddr NextHop; /* address of next hop */ 
int Cost; /* distance metric */ 
u_short TTL; /x time to live */ 

} Route; 

int numRoutes = 0; 


Route routingTable[MAX_ROUTES]; 


根据 一 条 新 路 由 来 更 新 本 地 节点 路 由 表 的 例 程 由 mergeRoute 给 出 。 尽 管 没有 显示 出 
来 ， 但 定时 器 函数 定期 检查 节点 路 由 表 中 的 路 由 列表 ， 对 每 个 路 由 中 的 TTL (生存 期 ) 
字段 进行 递减 运算 ， 并 丢弃 生存 期 为 0 的 所 有 路 由 。 然 而 需要 注意 的 是 ， 一旦 路 由 被 相 邻 
节点 发 送 的 更 新 消息 重新 确认 ，TTL 字段 就 被 重新 设 为 MAX_TTL. 


void 
mergeRoute (Route *new) 
{ 

int i; 


for (i = 0; i < numRoutes; ++i) 
{ 
if (new->Destination == routingTable[i].Destination) 
i 
if (new->Cost + 1 < routingTable[i].Cost) 
{ 
/* found a better route: */ 
break; 
} else if (new->NextHop == routingTable({i].NextHop) | 
/* metric for current next-hop may have 
changed: */ 
break; 
} else | 
/* route is uninteresting just ignore 
it «*/ 
return; 
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| 


if (i == numRoutes) 
| 
/* this is a completely new route; is there room 
for it? XY 
if (numRoutes < MAXROUTES) 
{ 
t++numRoutes; 
) else | 
/* can't fit this route in table so give up */ 
return; 
} 


routingTable[i] = *new; 
* reset TTL */ 
routingTable{iJ.TTL = MAX_TTL; 
/* account for hop to get to next node */ 
++routingTableLi].Cost; 


i=) 


最 后 ， 过 程 updateRoutingTable 是 主 例 程 ， 它 调用 mergeRoute 合并 从 相 邻 节点 接收 
到 的 路 由 更 新 消息 中 的 所 有 路 由 。 
void 


updateRoutingTable (Route *newRoute, int numNewRoutes ) 
! 


int i; 
for (i=0; i < numNewRoutes; ++i) 
| 


mergeRoute(&newRoute[li]); 


2. 路 由 信息 协议 (RIP) 

在 IP 网 络 中 ， 使 用 最 广泛 的 路 由 协议 之 一 就 是 路 由 信息 协议 (Routing Information 
Protocol，RIP)。 它 的 广泛 使 用 很 大 程度 上 依赖 于 Unix 操作 系统 “伯克利 软件 发 布 版 ” 
(BSD) 的 一 同 发 布 ， 从 BSDUnix 中 发 展 出 了 许多 Unix 的 商用 版 本 。RIP 还 非常 简单 ， 
它 是 建造 在 距离 向 量 算法 基础 之 上 的 路 由 协议 的 范例 。 

互联 网 中 的 路 由 协议 与 以 上 描述 的 理想 化 的 图 模型 略 有 


不 同 。 在 互联 网 中 ， 路 由 器 的 目标 是 学 会 如 何 向 不 同 的 网 络 1 4 
Cnetwork) 转发 分 组 。 因 此 ， 路 由 器 通知 的 是 到 达 网 络 的 开 - 
销 ， 而 不 是 到 达 其 他 路 由 器 的 开销 。 例 如 ， 在 图 3-30 中 , 路 5 


由 天 CC 通知 路 由 需 A 它 可 以 以 开销 0 到 达 网 络 2 和 网 络 3 
(与 它 直 接 相 连 )， 以 开销 1 到 达 网 络 5 和 网 络 6， 以 开销 2 
到 达 网 络 4。 3 可 6 

我 们 可 以 从 图 3-31 的 RIP (第 二 版 ) 分 组 格式 中 看 到 这 图 3-30 运行 RIP 的 网 络 例子 
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一 点 。 分 组 的 主要 部 分 为 laddress, mask, distance) ( (Hut. EiB. 距离 ))。 然 而 ， 路 
由 算法 的 原理 正好 是 一 样 的 。 例 如 ， 如 有 果 路 由 器 A 
Mit th at BAER. 经 B 到 达 网 络 X 比 经 路 由 表 中 现 
有 的 下 一 跳 到 达 网 络 X 的 开销 更 小 ， 那 么 A 将 更 新 
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版 本 必须 为 0 



































网 的 1 族 | 路 由 器 标签 | 
网 络 号 的 开销 和 下 一 跳 信息 。 i SITS RT | 
事实 上 ，RIP 是 距离 向 量 路 由 的 一 个 相当 简单 | 
的 实现 。 运 行 RIP 的 路 由 器 每 30s 发 出 一 次 通知 ， | 
无 论 何 时 路 由 器 收 到 来 自 其 他 路 由 带 的 引起 转发 表 上 | 
改变 的 信息 ， 它 都 将 发 送 一 个 更 新 消息 。 值得 注意 | | 
的 一 点 是 它 支 持 多 地 址 族 ， 而 不 仅仅 是 IP. 这 也 是 网 2 的 族 Bi th is bs E 
其 通知 中 存在 Family GR) 部 分 的 原因 。RIP 第 二 | 网 2 的 地 址 前 级 | 
版 “RIPv2) 同样 引入 了 一 个 像 RIP 第 一 版 中 服务 网 2 的 拖 码 | 
FIA IP 分 类 地 址 一 样 的 子 网 掩 码 ， 这 种 掩 码 将 在 | 
3.2. Spare 到 网 2 的 距离 











正如 我 们 下 面 将 看 到 的 ,在 路 由 协议 中 可 能 使 
用 多 种 不 同 的 度量 或 开销 来 衡量 链 路 。RIP 采取 最 图 3-31 RIP (第 二 版 分 组 格式 
简单 的 方法 ,使 所 有 链 路 开销 都 等 于 1. 正如 在 上 面 的 例子 中 所 看 到 的 。 因 此 它 总 是 尽力 
找到 最 少 跳 数 的 路 由 。 有 效 距 离 为 1 一 15，16 表示 无 穷 大 . 这 也 限制 了 RIP 只 可 在 很 小 的 
网 络 上 运行 ,那些 网 络 的 路 径 长 度 不 超过 15 跳 。 


3.3.3 链 路 状态 (OSPF) 

链 路 状态 路 由 是 第 二 类 主要 的 域内 路 由 协议 。 链 路 状态 路 由 的 最 初 假设 与 距离 向 量 路 
由 的 最 初 假设 非常 相似 。 假 设 每 个 节点 都 能 找 出 到 它 的 相 邻 节点 (向 上 或 向 下 ) 的 链 路 状 
态 以 及 每 条 链 路 的 开销 。 我 们 还 希望 提供 给 每 个 节点 足够 的 信息 ， 使 它 能 找 出 到 达 任 一 目 
标的 最 小 开销 路 径 。 链 路 状态 协议 的 基本 思想 非常 简单 : 每 个 节点 者 知道 怎样 到 达 它 的 邻 
接点 ， 如 果 我 们 确保 这 种 信息 被 完整 地 传播 到 每 个 节点 .那么 每 个 节点 都 有 足够 的 网 络 信 
息 来 建立 一 个 完整 的 网 络 映 象 。 显 然 ， 这 是 找到 到 达 网 络 中 任 一 点 的 最 短路 径 的 充分 (但 
不 必要 ) 条 件 。 因 此 ， 链 路 状态 路 由 协议 依靠 两 种 机 制 : 链 路 状态 信息 的 可 靠 传播 ， 根 据 
所 有 积累 的 链 路 状态 知识 的 总 和 进行 的 路 由 计算 。 

1. 可 靠 扩散 

#44 (Reliable Flooding) 是 确保 参与 路 由 协议 的 所 有 节点 都 能 得 到 来 自 其 他 节 
点 的 一 个 链 路 状态 信息 副本 的 处 理 过 程 。 正如 术语 扩散 (flooding) 所 揭示 的 它 的 基本 
思想 是 一 个 节点 沿 着 所 有 与 其 直接 相连 的 链 路 把 其 链 路 状态 信息 发 送出 去 ， 接收 到 这 个 信 
息 的 每 个 节点 再 沿 着 所 有 与 它 相 连 的 链 路 进行 转发 。 这 个 过 程 一 直 继 续 ， 直 到 该 信息 到 达 


网 络 中 的 所 有 节点 。 
更 确切 地 说 ， 每 个 节点 创建 一 个 更 新 分 组 ， 也 叫 链 路 状态 分 组 (LSP)， 包 含 以 下 
信息 


O 参见 “实验 七 ”。 
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。 创建 LSP 节点 的 ID. 

。 与 该 节点 直接 相 邻 的 节点 列表 ， 包 括 到 这 些 相 邻 节点 的 链 路 开销 。 

。 一 个 序号 。 

。 这 个 分 组 的 生存 期 (TTL). 

前 两 项 用 于 路 由 计算 ， 后 两 项 用 于 将 分 组 可 靠 地 扩散 到 所 有 节点 。 可 靠 性 包括 确保 拥 
有 信息 的 最 新 副本 ， 因 为 可 能 有 来 自 于 一 个 节点 的 多 种 不 一 致 的 LSP 经 过 网 络 。 保 证 可 
靠 扩 散 是 相当 困难 的 〈 例 如 ， 在 ARPANET 网 中 采用 的 链 路 状态 路 由 的 一 个 早期 版 本 就 
曾 在 1981 年 引起 网 络 故 障 ) 。 

扩散 的 工作 方式 如 下 。 首 先 ， 两 台 邻 接 路 由 器 之 间 的 LSP 传送 使 用 确认 和 重 传 来 保 
证 可 靠 性 ， 就 像 2. 5 节 描 述 的 可 靠 链 路 层 协议 一 样 。 然 而 ， 还 需要 有 更 多 的 步骤 来 保证 将 
一 个 LSP 可 靠 地 扩散 到 网 络 中 的 所 有 节点 。 

考虑 节点 X 接收 到 一 份 来 自 节 点 Y 的 LSP 副本 的 情况 。 注 意 节点 Y 可 以 是 与 节点 X 
在 同一 个 路 由 域 中 的 其 他 任何 一 台 路 由 器 。X 检查 是 否 已 经 存 有 一 份 来 自 Y AY LSP 副本 。 
如 果 没 有 ， 它 便 存储 这 份 LSP。 如 果 已 经 有 了 一 份 副 本 ， 则 比较 序号 ; 如 果 新 LSP 序号 
更 大 ， 就 被 认为 是 最 新 的 一 份 副 本 ， 并 被 保存 用 以 蔡 换 旧 的 LSP。 较 小 的 (或 相等 的 ) 序 
号 意味 着 这 个 LSP 旧 于 (或 不 新 于 ) 已 存储 的 LSP， 因 此 将 被 丢弃 而 无 须 采 取 进 一 步 的 
行动 。 如 果 接 收 到 的 LSP 是 新 的 ， 那么 X 将 发 送 这 个 LSP 的 副本 给 除了 刚才 发 送 LSP 的 
那个 相 邻 节点 以 外 的 所 有 相 邻 节点 。 不 把 LSP 发 回 刚才 发 送 它 的 节点 ， 这 使 得 LSP 的 扩 
散 过 程 能 够 结束 。 由 于 X 将 这 个 LSP 传 向 了 它 的 所 有 邻 届 ， 邻 居 又 转 而 做 同样 的 事情 ， 
所 以 最 终 LSP 的 最 新 副本 将 到 达 所 有 节点 。 

图 3-32 表示 一 个 LSP 在 一 个 小 型 网 络 中 的 扩散 。 每 个 节点 在 存储 新 的 LSP 后 变 成 带 
阴影 的 形式 。 在 图 3-32a 中 ，LSP 到 达 节 点 X， 在 图 3-32b 中 ，X 将 它 发 往 邻 届 AM C. 
A 和 C 不 将 它 发 回 X， 但 将 它 发 往 B。 由 于 也 接收 到 这 个 LSP 两 个 同样 的 副本 ， 因 此 它 将 
接收 首先 到 达 的 副本 而 将 第 二 个 作为 重复 予以 忽略 。 然 后 它 将 LSP 传 向 D，D 没有 邻居 需 
要 扩散 ， 因 此 过 程 结束 。 


bo $d 
| 
OOo) Da0) 
a) LSP 到 达 X 节 点 b) X 扩 散 LSP 到 A 和 C 
-i 
| 
©)-@)—) 
c) A 和 C 扩 散 LSP 到 B (但 没 到 X ) d) 扩散 结束 
图 3-32 链 路 状态 分 组 的 扩散 





与 在 RIP 中 一 样 ， 每 个 节点 在 两 种 情况 下 产生 LSP。 周 期 性 计时 器 超时 或 拓扑 结构 变 
化 都 将 导致 节点 产生 一 个 新 的 LSP。 然 而 ， 当 与 一 个 节点 直接 相连 的 链 路 或 邻居 出 现 故 障 
时 ， 才 是 节点 产生 一 个 LSP 的 基于 拓扑 的 原因 。 链 路 故障 有 时 可 由 链 路 层 协议 检测 到 。 
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SI) ET BNE IS AE EIR DE h PER “hello” SPEARSI. BE TS ABE 
FL ZE FS) AS PEJ PE BPA Tad “ES A) Ee IS SE A EE, UR HE — Be AE AS A EY Ta] A De Ar See E 
KA FHP AY “hello” 454., i AKARE M ee RG OE ee r h Ue Bie. IEE — A 
的 LSP 来 反映 这 一 事实 。 
链 路 状态 协议 扩散 机 制 的 重要 设计 目标 之 一 是 必须 将 最 新 的 信息 以 尽 可 能 快 的 速度 扩 
散 到 所 有 节点 ， 同 时 旧 信 息 必 须 从 网 络 中 删除 而 不 允许 在 网 络 中 循环 .另外 ， 我 们 显然 布 
望 减少 网 络 中 传送 的 路 由 的 总 通信 量 ， 毕 竞 ， 在 那些 实际 把 网 络 用 于 其 应 用 程序 的 人 看 
来 ,这 就 是 系统 开销 。 下 面 几 段 描述 达到 这 些 目 标的 一 些 方法 。 
减少 系统 开销 的 一 种 简单 的 方法 是 ， 除 非 有 绝对 必要 ， 否 则 避免 生成 LSP。 可 以 使 用 
很 长 时 间 (通常 是 几 个 小 时 ) 的 定时 器 周期 性 地 生成 LSP 来 做 到 这 一 点 。 如 果 当 拓扑 结 
构 改 变 时 扩散 协议 的 确 可 靠 ， 那 么 ， 可 以 放心 假设 不 需要 频繁 发 出 “没有 变化 ”消息 的 做 
法 是 安全 的 。 
为 了 确保 旧 信息 被 新 信息 代替 ，LSP 应 携带 序号 。 一 个 市 点 每 产生 一 个 新 的 LSP. 
将 序号 增 1。 与 协议 中 使 用 的 大 多 数 序号 不 同 的 是 ， 这 些 序 号 不 能 重 闪 ,所 以 坷 风 很 大 的 
字段 (如 64 比特 ) 。 如 果 一 个 节点 出 现 故 障 后 又 恢复 ,那么 它 的 序号 从 0 开始。 如 果 贡 点 
出 现 故障 已 很 长 一 段 时 间 ， 那 么 该 节点 所 有 旧 的 LSP 部 会 超时 (如 下 面 所 述 ); 否则 .该 
节点 最 终 会 收 到 一 份 它 自己 的 带 有 更 大 序号 的 LSP 副本， 然后 它 可 以 将 序号 加 1 EEO F 
己 的 序号 使 用 。 这 将 确保 它 的 新 LSP 能 够 代替 所 有 在 节点 出 现 故 隐 之 前 遗留 下 来 的 
IH LSP, 
LSP. 还 携带 着 一 个 生存 期 ， 用 于 确保 旧 的 链 路 状态 信息 最 终 从 网 络 中 删除 。 一 个 节点 
在 将 新 接收 到 的 LSP 扩散 到 其 邻居 之 前 ， 对 其 TTL 减 1]。 同 时 它 也 使 节点 中 存储 的 LSP 
“衰老 ”。 当 TTL 值 等 于 0 时 ， 节 点 再 次 扩散 TTL 为 0 的 这 个 LSP， 这 被 网 络 中 所 有 节点 
解释 为 删除 这 个 LSP 的 信和 号。 
2. 路 由 计算 
一 旦 一 个 给 定 节点 有 了 一 份 来 自 其 他 每 个 节点 的 LSP， 它 就 能 计算 出 完整 的 网 络 拓扑 
结构 图 ， 并 可 以 根据 这 幅 图 决定 到 达 每 个 日 的 地 的 最 佳 路 由 。 然 后 ， 问 题 就 是 如 何 从 这 些 
言 息 中 计算 出 路 由 。 解 决 办 法 基于 图 论 中 的 一 个 著名 算法 : Dijkstra 的 最 短路 径 算法 。 
我 们 首先 用 图 论 的 术语 来 定义 Dijkstra 算法 。 设 想 一 个 节点 将 它 接收 到 的 所 有 LSP 信 
息 构 造成 一 个 代表 网 络 的 图 ， 其 中 N 代表 图 中 的 节点 集合 ，L(i, D 表示 两 个 节点 7, jE 
N 之 间 的 边 上 的 非 负 开销 ( 权 值 )， 如 果 在 7、j SUA AE. WC poo. TE OP itt 
的 描述 中 ， 我 们 令 s 表示 这 个 节点 ，s E€ N， 也 就 是 执行 算法 寻找 到 达 N 中 其 他 所 有 市 点 
的 最 短路 径 的 节点 。 此 外 ， 算 法 还 维护 以 下 两 个 变量 : M 代表 到 日 前 为 止 参与 算法 的 市 点 
集 ，C(n) 表示 从 节点 到 每 个 节点 的 路 径 开 销 。 给 出 这 些 定义 后 ， 算 法 的 定义 如 下 : 
M=(s) 
for N— {s} P fy 4 n 
C(n) =lCs,n) 
while (nM) 
M=MU tw} Wh a Cow) 对 于 (CN 一 M) 中 的 所 有 冯 而 言 是 最 小 的 
for (N—M) P th 4 4 n 
Com) =MINCCOn) ,COw) +t/ (wn)) 
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算法 基本 执行 过 程 如 下 。 首 先 从 含有 节点 * 的 M 开始 ， 并 使 用 到 直接 相连 节点 的 已 知 
开销 初始 化 到 其 他 节点 的 开销 表 CCz) 。 然 后 寻找 能 以 最 小 开销 Go) 到 达 的 节点 ， 并 把 这 
个 节点 加 入 M 中 。 最 后 考虑 用 经 过 w 到 达 节 点 的 开销 来 更 新 开销 表 。 在 算法 的 最 后 一 行 
中 ， 如 果 从 源 点 5 到 志 ， 加 上 从 忆 到 n 总 的 开销 小 于 已 有 的 从 s 到 旧 的 路 径 的 开销 ， 那 
么 我 们 就 选择 这 条 经 w 到 达 的 新 路 径 。 重 复 这 个 过 程 ， 直 到 所 有 节点 都 归 人 M 中 。 

实际 上 ， 每 台 交 换 机 使 用 一 种 称 为 向 前 搜索 (forward search) 的 Dijkstra 算法 实现 ， 
从 它 收 集 的 LSP 中 直接 计算 路 由 表 。 具体 地 说 ,每 台 交 换 机 维护 两 张 表 : RRA (Tenta- 
tive) 和 证 实 表 (Confirmed)。 每 张 表 中 有 多 条 记录 ,每 条 记录 包含 (Destination, Cost, 
NextHop) (日 的 地 ， 开销 ， 下 一 跳 )。 算 法 如 下 : 

D 用 我 的 节点 中 的 一 条 记录 初始 化 证 实 表 ， 这 条 记录 中 的 开销 为 0。 

2) 在 前 一 步 中 加 入 证 实 表 的 那个 节点 ， 称 为 Next (下 一 点 ) 节 点， 选择 它 的 LSP. 

3) 对 于 Next 节点 的 每 个 Neighbor ( 相 邻 ) 节 点 ,计算 到 达 这 些 相 邻 节点 的 开销 
(Cost) ， 也 就 是 从 我 的 节点 到 Next 节点 和 再 从 Next 节点 到 senate 节点 的 总 开销 之 和 。 

a) 如 果 相 邻 节点 当前 既 不 在 证 实 表 中 也 不 在 试探 表 中 ,那么 把 (Neighbor， 

Cost. NextHop) 记录 加 入 试探 表 中 ， 其 中 NextHop 是 我 到 达 Next 节点 所 经 的 贡 ， H 

b) 如 果 Neighbor 节点 当前 在 试探 表 中 ， 且 开销 小 于 当前 登记 在 表 中 的 开销 ， 那 

么 用 记录 (Neighbor, Cost, NextHop) 替换 当前 记录 ， 其 中 NextHop 是 我 到 达 

Next 节点 所 经 的 节点 。 

4) 如 果 试 探 表 为 空 ， 则 停止 。 否 则 ， 从 试探 表 中 挑选 开销 最 小 的 记录 ， 把 它 移入 证 
实 表 ,并 转 回执 行 第 2) F. 
































我 们 看 一 个 例子 就 更 容易 理解 这 个 算法 。 考 虑 网 3- 
33 中 描述 的 网 络 。 注 意 ， 这 幅 图 不 像 前 几 个 例子 ， 这 个 5 G) 3 
网 络 带 有 不 同 的 边 上 开销 。 表 3-14 给 出 构造 节点 D 的 路 (A) 10. 
由 表 的 步骤 ,我 们 用 与 节点 D 相 邻 的 节点 BB 和 C 表 示 D i 
的 两 个 输出 。 注 意 ， 这 个 算法 的 开头 看 起 来 似乎 方向 有 ~ 
iR 〈 比 如， 将 到 达 忆 的 开销 为 11 的 路 径 第 一 个 加 入 试 
FRR), ， 但 最 终 得 到 了 到 达 所 有 节点 的 最 小 开销 路 径 。 图 3.33 链 路 状态 路 由 的 网 络 示例 
表 3-14 对 节点 D (图 3-33) 建立 路 由 表 的 步骤 
H 证 实 表 试探 表 注释 
1 | (D305—) 因为 DD 是 证 实 表 中 唯一 的 新 成 员 ， 所 以 观察 它 的 LSP 
a (Bi11,B) W DHJ LSP 表明， 我们 可 以 以 开销 11 通过 B 到 达 B， 比 表 中 任 
i (C2,0) 何其 他 路 径 都 好 ， 因 此 把 它 加 入 试探 表 中 ， 同 理 C 也 加 入 
Ei Biia i C 加 入 证 实 表 中 。 接着， 检查 证 实 
(D0 — YC,2,C) (B,5,0) 因为 通过 CC 到 达 B 的 开销 是 5， 所 以 替换 记录 (B, 11, B), C 
(A,12.0) 的 LSP 告诉 我 们 可 以 以 开销 12 到 达 KA 
i ac Tai (A,12,C) 把 试探 表 中 开销 最 小 的 记录 B MAIER RP, WEEN LSP 
CR Ene) WOT BRAY 5 到 达 A， 所 以 替换 试探 表 中 的 记录 
了 把 试探 表 中 开销 最 小 的 成 员 A 移入 证 实 表 中 ， 结 束 











138 BSE 





链 路 状态 路 由 算法 有 许多 优点 : 它 可 以 很 快 达到 稳定 状态 ,不 产生 过 多 的 通信 量 ， 而 


且 对 拓扑 结构 改变 或 节点 故障 反应 迅速 。 但 缺点 是 每 个 节点 存储 的 信息 量 〈 一 个 网 络 中 其 
他 所 有 节点 的 LSP) 可 能 非常 大 。 这 是 路 由 的 基本 问题 之 一 ， 也 是 可 扩展 性 这 个 更 一 般 性 
问题 的 一 个 例证 。 对 于 既 能 解决 特殊 性 问题 (每 个 节点 可 能 需要 的 存储 量 ) 又 能 解决 一 般 
性 问题 (可 扩展 性 ) 的 一 些 方法 ， 我 们 将 在 下 一 草 讨 论 。 


结论 ”距离 向 量 算法 和 和 链 路 状态 算法 的 区 别 可 以 总 结 如 下 。 在 距离 向 量 算法 中 ， 
每 个 节点 只 和 直接 相连 的 节点 进行 通信 ， 但 是 它 把 所 知 的 全 部 信息 ( 即 到 所 有 节 
点 的 距离 ) 都 告诉 它们 。 在 链 路 状态 算法 中 ， 每 个 节点 和 其 余 各 个 节点 都 进行 通 

信 ， 但 只 告诉 它们 自己 确切 知道 的 信息 ( 即 与 其 直接 相连 的 链 路 状态 ) 。 

3. 开放 最 短路 径 优先 协议 (OSPF) 

一 个 使 用 最 广泛 的 链 路 状态 路 由 协议 是 开放 最 短路 径 优 先 (Open Shortest Path 


First, OSPF) 协议 。 第 一 个 词 “Open” 指 出 它 是 一 个 开放 的 、 非 专 有 的 和 由 IETF 主持 
创建 的 标准 。“SPF” 部 分 来 自 于 链 路 状态 路 由 的 另 一 个 名 字 。OSPF 为 以 上 描述 过 的 基本 
链 路 状态 算法 增加 了 相当 多 的 特性 ， 这 些 特性 包括 : 


。 路 由 消息 的 认证 : 这 是 一 个 很 好 的 特性 ， 因 为 经 常 有 一 些 错误 配置 的 主机 认为 它 
能 以 0 开销 到 达 全 世界 的 每 台 主 机 。 当 主机 发 布 这 件 事 时 ,周围 相 邻 的 每 台 路 由 


数据 ， 其 实 它 不 知 该 如 何 处 理 。 通 常 ， 它 将 所 有 数据 丢弃 ,使 网 络 停止 。 在 很 多 
情况 下 ， 这 样 的 灾难 可 以 通过 要 求 认 证 路 由 更 新 消息 来 预防 。OSPF 早期 的 版 本 使 
用 一 个 简单 的 8 字 节 口令 进行 认证 。 虽 然 这 个 认证 尚 不 足以 防止 那些 恶意 用 户 . 
但 是 它 减少 了 由 错误 配置 引起 的 很 多 问题 。( 类 似 的 一 种 认证 形式 也 加 到 RIP 第 2 
版 中 。) 8. 3 节 讨 论 的 更 强 的 密码 认证 是 后 来 加 上 去 的 。 

。 附加 的 层次 : 分 层 是 使 系统 具有 更 好 的 可 扩展 性 的 基本 工具 之 一 。OSPF 通过 允许 
将 域 划 分 成 区 (area) 给 路 由 层次 结构 引入 了 另外 一 层 。 这 意味 着 域内 的 路 由 器 无 
须知 道 如 何 到 达 域 内 的 每 个 网 络 ， 只 需 知道 如 何 到 达 正 确 的 区 就 足够 了 。 这 样 ， 
必须 传送 及 存储 在 每 个 节点 中 的 信息 量 将 会 减少 。 我 们 将 在 4.1.1 节 详细 地 讨 
论 区 。 

。 负载 平衡 OSPF 允许 到 同一 位 置 的 多 条 路 由 有 相同 的 开销 ， 这 样 可 以 使 通信 和 量 均 
名 地 分 布 于 这 几 条 路 由 上 。 

OSPF 消息 有 多 种 不 同类 型 ， 但 是 都 以 相同 的 首部 开始 ， 如 图 3- 34 所 示 。Version 


CRA) 字段 当前 设 为 2，Type《〈 类 型 ) 字段 可 以 0 8 16 31 


M 1~5 HUE. SourceAddr ( 源 地 址 ) 指明 消息 的 
发 送 方 ，Areald (区 标识 符 ) 是 节点 所 在 区 的 32 
位 标识 。 除 了 认证 数据 以 外 ， 整 个 分 组 使 用 和 IP 
首部 同样 的 算法 〈 见 2.4 节 ) 由 16 位 的 校 验 和 来 
保护 。 若 不 使 用 认证 ，Authentication type (认证 
类 型 ) HO; 否则 为 1， 表示 使 用 一 个 简单 的 口 











A, 或 者 为 2， 表 示 使 用 8.3 节 中 描述 的 一 种 加 
密 认证 校 验 和 。 在 后 一 种 情况 下 ，Authentication 图 3-34 OSPF 首部 格式 
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(认证 ) 字段 携带 口令 或 加 密 校 验 和 。 

在 5 种 OSPF 消息 类 型 中 ， 类 型 1 是 “hello” 消 息 ， 路 由 器 将 它 发 送 给 对 等 实体 ， 表 
明 自 己 仍 是 活动 的 且 以 上 述 方式 连接 。 其 余 的 消息 类 型 用 于 链 路 状态 消息 接收 的 请 求 、 发 
送 和 确认 。OSPF 中 链 路 状态 消息 的 基本 构件 叫 作 链 路 状态 通知 (LSA)。 一 条 消息 可 包 
含 多 个 LSA。 这 里 我 们 提供 一 些 有 关 LSA 的 细 市 

像 任 何 互联 网 路 由 协议 一 样 ，OSPF 必须 提供 如 何 到 达 网 络 的 信息 。 因 此 ，OSPF 必 
须 比 以 上 描述 的 简单 基于 图 的 协议 提供 更 多 的 信息 。 特 别 是 ， 一 个 运行 OSPF 的 路 由 器 可 
以 产生 链 路 状态 分 组 ， 通 知 直接 与 其 相连 的 一 个 或 多 个 网 络 。 另 外 ， 一 个 通过 某 条 链 路 连 
接 到 另 一 台 路 由 器 上 的 路 由 器 必须 通知 经 此 链 路 到 达 该 路 由 器 所 需 的 开销 。 这 两 种 类 型 的 
通知 ， 对 于 一 个 域 中 的 所 有 路 由 器 确定 到 达 该 域 中 所 有 网 络 的 开销 及 到 达 每 个 网 络 适 当 的 
下 一 跳 都 是 必需 的 。 

图 3-35 给 出 了 类 型 1 的 链 路 状态 通告 的 分 
组 格式 。 类 型 1 的 LSA 在 路 由 器 之 间 通 知 链 路 
开销 。 类 型 2 的 LSA 用 来 通知 发 出 通知 的 路 由 
at Ut HE BEY Bd A DER E 
次 结构 ， 见 下 节 所 述 。LSA 中 的 很 多 字段 
前 面 讨论 过 的 类 似 。LS p ( 链 路 状态 生 72348) 
相当 于 生存 期 ， 不 过 它 是 递增 计数 的 ， 当 它 达 到 “| 链 路 类 型 TO in 度 
一 个 定义 的 最 大 值 时 ，LSA 终结 。Type RAD) meneame <j 

字段 告诉 我 们 这 是 一 个 类 型 1 的 LSA, 

在 一 个 类 型 1 的 LSA 中 ，Link-State ID 
( 链 路 状态 ID) 和 Advertising router Gi MURR AAR) 字段 是 一 样 的 。 每 个 字段 都 携带 一 个 
创建 此 LSA HiK aI 32 位 标识 符 。 尽 管 很 多 分 配 策略 都 可 用 于 分 配 此 ID， 但 最 本 质 的 
是 在 一 个 路 由 域 中 ID 必须 唯一 ， 并 且 一 个 给 定 的 路 由 器 必须 一 直 使 用 同一 个 路 由 吉 ID. 
一 种 符合 这 些 要 求 的 选择 路 由 器 ID 的 方法 是 选择 所 有 IP 地 址 中 最 小 的 一 个 赋 给 路 由 器 。 
(注意 ,一 台 路 由 器 的 每 个 接口 前 可 能 有 一 个 不 同 的 IP 地 址 。) 

LS sequence number (LS 序号 ) 的 使 用 完全 如 上 所 述 ， 用 来 检测 旧 的 或 重复 的 LSA。 
LSchecknum (LS 校 验 和 ) 类 似 于 我 们 在 2.4 节 和 其 他 协议 中 讲 过 的 某 些 其 他 校 验 和 ， 用 








图 3-35 OSPF 链 路 状态 通告 


来 验证 数据 未 被 破坏 。 它 涉及 分 组 中 除 LSAge 之 外 的 所 有 字段 ， 因 此 每 当 LSAge 加 1 后 
不 必 重 新 计算 校 验 和 。Length (KE) 是 以 字 节 为 单位 的 整个 LSA 的 长 度 。 
现在 我 们 来 看 实际 的 链 路 状态 信息 。 因 为 TOS (服务 类 型 ) 信息 的 存在 使 得 这 件 事 稍 


有 一 点 以 烦 ， 故 暂且 将 其 忽略 ， 那 么 LSA 中 的 每 条 链 路 都 可 由 一 个 LinkID ( 链 路 ID)、 
一 些 Link Data 〈 链 路 数据 ) 和 一 个 metric (度量 值 ) 来 表示 。 这 些 字段 中 的 前 两 项 标识 
一 种 普遍 使 用 的 方法 是 使 用 链 路 远 端 的 路 由 器 ID 作为 链 路 ID， 并 且 如 果 需 要 的 
， 使 用 链 路 数据 来 区 别 多 条 并 行 链 路 。 度 量 值 当然 是 链 路 的 开销 。Type (类 型 告诉 我 
a 关 链 路 的 一 些 信息 ， 例 如 ， 它 是 不 是 一 条 点 到 点 的 链 路 。 
TOS 信息 的 使 用 ， 人 允许 OSPF 基于 它们 的 TOS 字段 值 为 IP 分 组 选择 不 同 的 路 由 。 依 
据 数据 的 TOS 值 可 为 链 路 分 配 多 个 度量 值 而 不 是 只 分 配 一 个 度量 值 。 例如， 在 网 络 中 有 
-条 链 路 专用 于 对 延迟 很 敏感 的 通信 ， 婴 么 我 们 就 可 以 用 一 个 较 低 的 度量 值 作为 TOS 值 
表示 低 延 迟 ， 而 用 一 个 较 高 的 度量 值 表示 其 他 。OSPF 将 为 设置 了 那个 TOS 值 的 分 组 选 


th 
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择 不 同 的 最 短路 径 。 值 得 注意 的 是 直到 编写 本 书 时 ， 这 项 功能 还 未 被 广泛 应 用 
3.3.4 度量 


在 前 面 的 讨论 中 ， 当 我 们 执行 路 由 算法 时 ,都 假设 链 路 开销 或 度量 标准 是 已 知 的 。 本 
节 我 们 来 看 实际 中 一 些 有 效 的 计算 链 路 开销 的 方法 。 前 面 我 们 已 经 看 到 一 个 完全 合理 和 十 
分 简单 的 例子 ， 即 给 所 有 链 路 分 配 的 开销 都 是 1， 这样 最 小 开销 的 路 由 也 就 是 跳 数 最 少 的 
路 由 。 然 而 这 种 方法 有 几 个 缺点 。 首先， 它 不 是 根据 时 延 区 分 链 路 。 这 样 ， 对 路 由 协议 来 
说 ， 时 延 为 250ms 的 卫星 链 路 和 时 延 为 1ms 的 陆地 链 路 是 没有 区 别 的 。 其 次 ， 它 不 是 根 
据 容 量 区 分 链 路 ， 这 使 得 传输 速度 为 9. 6kbps 的 链 路 与 传输 速度 为 45Mbps 的 链 路 看 起 来 
一 样 好 。 最 后 ， 它 也 不 是 根据 链 路 当前 的 负载 情况 区 分 链 路 ， 使 其 不 可 能 绕 过 负载 过 重 的 
链 路 。 结 果 证 明 最 后 一 个 问题 是 最 难 的 、 内 为 你 试图 用 单纯 数量 上 的 开销 来 获得 复杂 的 和 
动态 的 链 路 特征 。 

很 多 不 同 的 链 路 开销 计算 方法 都 以 ARPANET 网 作为 测试 环境 . 〈 也 正 是 在 ARPA- 
NET 网 中 展示 了 链 路 状态 路 由 的 稳定 性 胜 过 距离 向 量 路 由 ; 最 初 的 机 制 采 用 距离 向 量 . 
但 后 来 的 版 本 使 用 链 路 状态 .) 下 面 的 讨论 研究 ARPANET 网 路 由 度量 标准 的 发 展 过 程 ， 
同时 ， 也 研究 了 这 个 问题 的 一 些 细微 方面 。 

最 初 的 ARPANET 网 路 由 度量 标准 度量 在 每 条 链 路 上 排队 等 待 发 送 的 分 组 数量 ， 有 
10 个 分 组 排队 等 待 发 送 的 链 路 分 配 到 的 开销 比 有 5 个 分 组 排队 等 待 发 送 的 链 路 大 .然而 ， 
使 用 队列 长 度 作 为 路 由 度量 标准 并 不 是 个 好 办 法 ,因为 队列 长 度 是 负载 大 小 的 一 个 人 为 度 
量 ， 它 把 分 组 移 往 最 短 的 队列 而 不 是 目的 地 ， 这 种 情况 很 像 有 些 人 在 超市 收 款 台 前 从 一 个 
队列 换 到 另 一 个 队列 。 更 确切 地 说 ,， 起初 的 ARPANET 网 路 由 机 制 容忍 这 样 一 个 事实 、 
即 它 不 考虑 链 路 的 带宽 ， 也 不 考虑 链 路 的 时 延 。 

ARPANET 网 路 由 算法 的 第 2 版， 有 了 时 称 为 新 路 由 机 制 (new routing mechanism). 
既 考 虑 了 链 路 带宽 ,又 考虑 了 链 路 时 延 ， 并 使 用 延迟 而 不 是 队列 长 度 作为 负载 的 衡量 标 
准 。 其 实现 方式 如 下 : 首先 每 个 进入 的 分 组 以 其 到 达 路 由 器 的 时 间 CArrivalTime) 作为 
时 标 ， 同 时 记录 它 离 开路 由 器 的 时 间 (DepartTime); 其 次 ， 当 从 链 路 另 一 端 接收 到 链 路 
层 ACK 后 ， 节 点 计算 分 组 的 延迟 为 

Delay 王 (DepartTime 一 ArrivalTime) 十 TransmissionTime + Latency 
其 中 TransmissionTime 和 Latency 都 是 链 路 的 静态 特征 .分别 反映 链 路 的 带宽 和 时 延 。 
注意 在 这 个 公式 中 ，DepartTime 一 ArrivalTime 表示 分 组 在 节点 中 因 装 载 而 被 延迟 (排队 
等 待 ) 的 时 间 量 。 如 果 ACK 没有 到 达 而 是 分 组 超时 .就 把 DepartTime 重新 设 定 为 分 组 的 
重 传 (retransmit) 时 间 。 这 种 情况 下 ，DepartTime 一 ArrivalTime {4 3 T é BR AY FY Fe 
性 一 一 分 组 被 重 传 的 次 数 越 多 ， 链 路 的 可 靠 性 越 差 我们 就 越 想 避免 这 种 情况 。 最后， 分 
配给 每 条 链 路 的 权 值 是 最 近 从 这 条 链 路 发 送 的 分 组 所 经 历 的 平均 延迟 ， 

虽然 这 个 方法 比 原来 的 机 制 有 所 改进 .但 也 存在 不 少 问 题 。 在 较 轻 负载 下 , 它 可 以 正 
常 工作 ， 因 为 延迟 的 两 个 静态 因素 支配 着 开销 。 然 而 .在 重负 载 下 .拥塞 的 链 路 将 开始 通 
知 一 个 很 高 的 开销 。 这 就 使 所 有 的 通信 量 脱 离 该 链 路 ， 从 而 使 其 空闲 ， 然 后 ， 它 又 会 通知 
一 个 低 开 销 ， 因 此 ， 又 引 回 所 有 通信 量 ， 如 此 反复 。 这 种 不 稳定 性 产生 的 后 朱 就 是 在 重负 
载 下 ， 许 多 链 路 实际 在 空闲 状态 上 浪费 大 量 时 间 ， 这 是 重负 载 下 最 不 希望 发 生 的 事情 。 

另 一 个 问题 是 链 路 开销 的 范围 会 过 大 。 例 如 ， 一 条 传输 速度 为 9. 6kbps 的 重负 载 链 
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路 ， 其 开销 大 约 相当 于 传输 速度 为 56kbps 的 轻 负载 链 路 的 127 倍 。 这 就 意味 着 ， 与 传输 
速度 为 9. 6kbps 的 1 跳 路 径 相 比 ， 路 由 算法 宁愿 选择 一 条 由 传输 速度 为 56kbps 的 轻 负载 
链 路 组 成 的 126 跳 的 路 笃 。 尽 管 从 超 负 和 载 的 链 路 上 减少 一 些 通信 和 量 是 一 个 好 主意 ,但 是 这 
并 没有 什么 吸引 力 ， 因 为 它 失掉 了 超载 的 通信 量 。 用 126 跳 的 链 路 去 完成 1 跳 的 链 路 能 完 
成 的 事 ， 通 常会 极 大 地 浪费 网 络 资源 。 同 样 ， 对 卫星 链 路 而 言 也 很 不 利 ， 一 条 56kbps 的 
空闲 卫星 链 路 要 比 一 条 9. 6kbps 的 空闲 陆地 链 路 开销 高 得 多 ， 尽 管 前 者 可 以 为 高 带宽 的 应 
用 提供 更 好 的 性 能 。 

第 三 种 称 为 “修正 的 ARPANET 网 路 由 度量 标准 ”的 方法 解决 了 这 些 问 题 。 主 要 的 
改进 是 大 量 缩减 度量 值 的 动态 范围 ， 说 明 链 路 的 类 型 以 及 减缓 度量 值 随 时 间 的 变化 。 

可 通过 以 下 几 种 措施 来 减缓 度量 值 的 变化 。 首 先 ， 将 延迟 度量 换 成 链 路 的 利用 率 ， 并 
将 这 个 值 和 最 近 记 录 的 利用 率 取 平 均值 来 减缓 突然 的 改变 。 第 二 ， 对 于 从 一 个 衡量 周期 到 
下 一 个 周期 中 度量 值 可 以 改变 多 少 要 有 严格 的 限制 。 通 过 减缓 开销 的 变化 ， 所 有 节点 同时 
丢弃 一 条 路 由 的 可 能 性 就 大 大 降低 了 。 

把 测 得 的 利用 率 、 链 路 类 型 和 链 路 速度 输入 到 一 个 如 图 3-36 所 示 的 函数 中 ， 就 得 到 
动态 范围 的 压缩 。 观 察 以 下 几 点 : 

。 一 个 高 负载 链 路 的 开销 不 可 能 大 于 其 空闲 时 开销 的 3 倍 。 

。 最 昂贵 的 链 路 开销 也 仅仅 是 最 廉价 的 链 路 开销 的 7 倍 。 

。 高 速 的 卫星 链 路 比 低速 的 陆地 链 路 更 有 吸引 力 。 

。 只 有 在 中 负载 或 高 负载 的 情况 下 ， 开 销 才 是 链 路 利用 率 的 函数 。 
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图 3-36 修正 的 ARPANET 网 路 由 选择 度量 值 与 链 路 使 用 率 


这 些 因素 意味 着 一 条 链 路 不 可 能 完全 被 丢弃 ， 因 为 开销 增长 3 倍 ， 对 于 一 些 路 径 来 
说 ， 这 条 链 路 可 能 会 成 为 不 可 取 的 ， 然 而， 对 于 其 他 路 径 来 说 却 仍 是 最 佳 选择 。 图 3- 36 
中 曲线 的 斜率 、 偏 移 量 和 分 界 点 是 通过 反复 试验 获得 的 ， 并 对 其 进行 仔细 地 调整 以 提供 良 
好 的 性 能 。 

我 们 用 现实 来 结束 关于 路 由 指标 的 讨论 。 在 本 书写 作 期 间 ， 大 多 数 的 实际 网 络 度量 变 
化 非常 少 ， 且 在 网 络 管理 员 的 控制 之 下 ， 而 不 是 像 前 面 描述 的 那么 自动 化 。 部 分 原因 是 人 
们 普遍 认为 动态 变化 的 指标 太 不 稳定 ， 即 使 事实 可 能 并 非 如 此 。 也 许 更 清楚 的 是 ， 今 天 的 
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很 多 网 络 都 缺乏 比 ARPANET 更 好 的 连接 速度 和 延迟 。 因此， 静态 指标 就 是 规范 。 一 个 
设置 指标 的 通用 方法 是 采用 常量 乘 以 连接 带宽 的 倒数 。 


相关 主题 

监控 路 由 行为 

鉴于 穿 过 因特网 这 样 规 模 的 网 络 时 路 由 分 组 的 复杂 性 ， 我 们 也 许 想 知道 系统 是 如 何 正 
常 工作 的 。 我 们 有 时 候 知 道 它 工作 正常 ， 因 为 我 们 可 以 连 到 全 世界 的 任何 一 个 站 点 上 。 但 
我 们 怀疑 它 不 是 一 直 都 正常 工作 ， 因 为 有 时 我 们 无 法 连接 到 某 些 站 点 上 。 真 正 的 问题 是 当 
我 们 连接 失败 时 ， 确 定 系 统 的 哪 一 部 分 出 了 错 ， 例 如 某 种 路 由 方式 不 能 正常 工作 时 ， 是 由 
于 远程 服务 器 太 忙 还 是 某 条 链 路 或 某 台 机 器 坏 了 ? 

这 实际 上 是 一 个 网 络 管理 问题 ， 虽 然 系统 管理 员 可 以 用 一 些 工具 来 监控 网 络 ， 如 
9.3.2 节 描 述 的 简单 网 络 管理 协议 CSNMP)， 但 网 管 问题 对 整个 因特网 来 说 仍然 是 未 解决 
的 一 个 主要 问题 。 实 际 上 ， 目 前 因特网 已 经 增长 到 如 此 之 大 上 且 如 此 复杂 即使 它 是 由 一 些 
人 工 的 和 很 大 程度 上 确定 的 部 分 组 成 但 我 们 仍 在 很 大 程度 上 把 它 看 作 是 一 个 活 的 有 机 低 
或 自然 现象 去 研究 。 也 就 是 说 ， 我 们 通过 在 因特网 上 进行 一 些 实验 试图 了 解 它 的 动态 行 
为 ， 并 提出 模型 来 解释 我 们 的 观察 。 

此 类 研究 的 一 个 极 好 例子 是 由 Vern Paxson 做 出 的 。1995 年 ，Paxson 使 用 Unix 的 
traceroute 工具 研究 了 37 个 因特网 站 点 之 间 的 40 000 条 端 到 端的 路 由 。 他 试图 回答 路 由 
如 何 出 故障 、 稳 定 的 路 由 如 何 过 时 以 及 它们 是 否 对 称 的 问题 。Paxson 发 现 用 户 过 到 一 个 
严重 的 端 到 端 路 由 问题 的 可 能 性 是 1/30， 并 且 这 样 的 问题 通常 持续 约 30s。 他 还 发 现 ， 有 有 
2/3 的 因特网 路 由 持续 存在 几 天 或 几 周 ， 且 大 约 1/3 的 时 间 内 .从 主机 A 到 主机 BB 的 路 由 
与 从 主机 B 到 主机 A 的 路 由 相 比 ， 至 少 包含 一 个 不 同 的 路 由 域 。 最 后 Paxson 得 出 结论 ， 
因特网 路 由 正在 变 得 越 来 越 不 可 预测 。 





3.4 实现 和 性 能 

到 目前 为 止 ， 我 们 只 讨论 了 交换 机 要 做 什么 ， 却 没有 讨论 它 怎 样 去 做 。 构造 一 台 交 换 
机 有 一 个 很 简单 的 方法 : 买 一 台 普 通 的 工作 站 并 为 它 配 置 多 个 网 络 接口 。 这 台 设 备 运行 适 
当 的 软件 就 可 以 在 它 的 一 个 接口 上 接收 分 组 ， 执 行 前 面 描述 的 任 一 种 交换 功能 ， 然 后 在 它 
的 另 一 个 接口 输出 。 实 际 上 ， 当 你 想 做 像 开 发 新 路 由 协议 这 样 的 事 时 ， 这 是 一 种 建立 实验 
交换 机 的 流行 方法 ， 因 为 它 提供 非常 好 的 灵活 性 和 熟悉 的 编程 环境 。 许 多 低 端 路 由 器 的 体 
系 结构 也 没有 脱离 这 种 方法 。 


3. 4.1 交换 基础 


交换 与 路 由 是 相似 的 实现 技术 ， 所 以 我 们 将 在 这 一 节 探 讨 它们 的 通用 技术 ,然后 转向 
一 些 在 3.4.4 节 影 响 路 由 实现 的 特殊 话题 。 在 本 节 的 大 部 分 内 容 里 ， 我们 使 用 交换 机 
(switch) 来 表示 这 两 种 设备 ， 因 为 它们 的 设计 是 类 似 的 ( 且 总 是 说 “交换 机 和 路 由 器 ” 
很 无 聊 )。 

图 3-37 给 出 将 一 台 有 3 个 网 络 接口 的 工作 站 作为 交换 机 的 例子 。 图 中 显示 一 个 分 组 
可 以 从 交换 机 的 接口 1 到 达 然 后 从 接口 2 输出 的 一 条 路 径 。 在 这 里 ， 我 们 假设 工作 站 有 一 
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种 机 制 可 以 把 数据 从 一 个 接口 直接 移动 到 它 的 主 存储 器 ， 而 不 是 被 CPU 直接 复制 ， 这 种 
技术 叫 作 直接 内 存 访 问 (DMA)。 一旦 分 组 进入 内 存 ，CPU 就 检查 其 首部 来 决定 分 组 应 该 
从 哪个 接口 发 送出 去 ， 然后 , EAA DMA 把 分 组 移动 到 相应 的 输出 接口 。 注 意 ， 图 3-37 并 
没有 面 出 分 组 进入 CPU， 因 为 CPU 只 检查 分 组 的 首部 ， 它 并 不 读 取 分 组 中 的 每 个 数据 
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图 3-37 用 作 分 组 交换 机 的 通用 处 理 吉 


使 用 工作 站 作为 交换 机 的 主要 问题 是 它 的 性 能 要 受到 限制 ， 因 为 所 有 分 组 都 必须 通过 
一 个 的 争 用 点 。 在 上 面 提 到 的 例子 中 ,每 个 分 组 都 要 两 次 经 过 I/O 总线, 一 次 是 写 入 内 
存 ， 一 次 是 从 内 存 中 读 出 。 这 样 一 个 设备 的 总 否 吐 量 (所 有 输入 可 支持 的 总 的 数据 速率 ) 
的 上 界 是 内 存 带 宽 的 一 半 ， 或 者 是 I/O 总 线 带 宽 的 一 半 ， 取 两 者 中 较 小 的 一 个 (通常 是 1/ 
O 总 线 带 宽 )。 例 如 ， 一 台 有 133MHz、64 位 1/O 总 线 的 工作 站 能 够 传输 的 数据 峰值 速率 
略 高 于 8Gpps。 央 为 转发 一 个 分 组 要 经 过 总 线 两 次 ， 实 际 的 速度 就 被 限制 在 4Gbps， 它 足 
以 支持 LOOMbps 的 中 端 以 太 网 接口 卡 。 但 在 互联 网 中 很 难 找到 足够 好 的 高 端 路 由 需 。 

此 外 这 个 三 界 还 假设 移动 数据 是 唯一 的 问题 : 这 种 估算 对 长 分 组 是 很 接近 的 ， 但 当 
分 组 都 较 短 时 就 相差 很 远 。 在 后 一 种 情况 中 ， 处 理 每 个 分 组 的 开销 ， 即 分 析 它 的 首部 信 
息 及 决定 把 分 组 从 哪个 输出 链 路 传输 出 去 ， 可 能 占 开销 的 绝 大 部 分 。 例 如 ， 假 设 一 个 工 
作 站 每 秒 能 对 200 000 个 分 组 完成 所 有 必要 的 交换 处 理 ， 有 时 称 为 分 组 每 秒 传输 率 
(pps)。( 这 个 数字 代表 了 当今 高 档 PC 的 处 理 能 力 。) 如 果 平 均 分 组 较 短 ， 例 如 64 字 节 ， 
这 就 意味 着 

Throughput= pps X (BitsPerPacket) =2 X 10° X 64 K 8=1024 X 108 
也 就 是 1Gbps 的 吞吐 量 ， 大 大 低 于 当今 网 络 用 户 要 求 的 范围 。 记 住 这 1Gbps 是 连接 在 这 
个 交换 机 上 的 所 有 用 户 共 享 的 ， 正 如 以 太 网 中 带宽 被 连接 到 共享 介质 上 的 所 有 用 户 所 共享 
- 样 。 那 么 ， 假 如 一 台 交 换 机 有 这 样 聚 合 春 吐 量 且 带 有 20 个 端口 ， 则 每 个 端口 就 只 能 处 
理 SOMbps 的 平均 数据 速率 。 

要 解决 这 个 问题 ， 便 件 设 计 者 们 设计 出 了 大 规模 的 交换 机 阵列 ， 以 减少 争 用 的 数量 ， 
提供 较 高 的 总 否 吐 量 。 注 意 ， 有 一 些 争 用 是 不 可 避免 的 :如果 每 个 输入 都 有 数据 要 发 送 到 
同一 个 输出 上 ， 那 么 它们 不 可 能 同时 发 送 。 然 而 ， 如 果 在 不 同 输入 上 到 达 的 数据 要 送 到 不 
同 的 输出 上 ， 一 台 设 计 良 好 的 交换 机 能 够 以 并 行 的 方式 把 数据 从 输入 送 到 输出 上 ， 这 样 就 
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相关 主题 

定义 吞吐 量 

很 难 准 确 地 给 交换 机 的 吞吐 量 下 定义 。 直 观 上 ， 如 果 一 台 交 换 机 有 nn 个 输入 ， 而 每 个 
输入 支持 的 链 路 速度 为 s;， 那 我 们 就 认为 吞吐 量 是 所 有 s 之 和 。 这 也 许 是 实际 中 交换 机 所 
能 提供 的 最 大 吞吐 量 。 但 事实 上 ， 没 有 任何 交换 机 能 保证 这 样 的 性 能 水 平 。 原 因 很 简单 ， 
假设 在 一 段 时 间 内 ， 到 达 交 换 机 的 所 有 分 组 都 要 发 送 到 同一 个 输出 上 ， 只 要 那个 输出 的 带 
宽 小 于 所 有 输入 带宽 之 和 ， 那 么 一 些 分 组 就 将 被 送 入 缓冲 区 或 丢弃 。 在 这 种 特定 的 通信 量 
模式 下 ， 交 换 机 无 法 提供 持续 的 而 且 速 度 高 于 那个 输出 链 路 速度 的 吞吐 量 。 但 是 ， 如 果 分 
组 平均 分 布 在 不 同 的 输出 端口 上 ， 交 换 机 就 能 够 控制 所 有 输入 端口 以 全 链 路 速度 进入 的 通 
信 量 ， 这 种 情况 被 认为 是 最 优 的 。 

另 一 个 影响 交换 机 性 能 的 因素 是 到 达 输 入 端口 的 分 组 长 度 。 对 于 一 台 ATM 交换 机 来 
说 ， 这 通常 不 成 问题 ， 因 为 所 有 分 组 ET) 的 长 度 相等 。 但 对 于 以 太 网 交换 机 或 IP 路 
由 器 来 说 ， 分 组 可 能 具有 差异 很 大 的 长 度 。 交 换 机 必须 执行 的 一 些 操作 对 每 个 分 组 都 有 固 
定 的 开销 ， 因 此 ， 根 据 到 达 的 所 有 分 组 都 很 短 、 都 很 长 或 有 长 有 短 的 情况 ， 交 换 机 的 执行 
可 能 有 所 不 同 。 由 于 这 个 原因 ， 所 以 对 于 转发 变 长 分 组 的 路 由 器 和 交换 机 来 说 ， 除 了 用 比 
特 每 秒 的 吞吐 量 描述 它们 的 性 能 外 ， 还 可 以 用 分 组 每 秒 (packet per second, pps) 的 传输 
率 来 描述 。pps 通常 用 最 小 长 度 的 分 组 来 测量 。 

对 于 上 面 的 讨论 ， 首 先 需 要 注意 的 一 点 是 交换 机 的 吞吐 量 是 其 通信 量 的 函数 。 交 换 机 
的 设计 者 们 花费 大 量 时 间 所 做 的 事情 之 一 就 是 试图 提出 一 个 能 够 模拟 实际 数据 通信 行为 的 
通信 量 模型 。 事 实证 明 获 得 精确 的 通信 量 模型 是 非常 困难 的 。 一 个 通信 量 模型 试图 解决 的 
几 个 最 主要 问题 是 : DAAM? 加 它们 预定 从 哪个 输出 上 发 送出 去 ?图 它们 有 
多 大 ? 

通信 量 建 模 是 一 门 很 成 熟 的 科学 ， 尤 其 在 电话 领域 是 非常 成 功 的 ， 它 使 电话 公司 能 够 
设计 网 络 以 有 效 地 传输 预期 的 负载 。 部 分 原因 是 由 于 人 们 使 用 电话 网 络 的 习惯 并 不 因 时 间 
的 推移 而 变化 : 如 打 电 话 的 频率 、 打 一 次 电话 的 时 间 和 人 们 多 年 来 一 直 保 持 在 母亲 节 打 电 
话 的 习惯 。 相 反 ， 计 算 机 通信 的 快速 演变 (如 像 Bit Torrent 一 样 的 新 应 用 ) 几乎 可 以 在 
一 夜 之 间 改 变通 信和 量 模式 ， 这 就 使 有 效 地 对 计算 机 网 络 建 模 变 得 更 加 困难 。 不 过 ,我 们 在 
本 章 的 后 面 列 出 了 有 关 这 个 主题 的 优秀 书籍 和 文章 。 

为 了 让 你 对 设计 者 必须 关注 的 吞吐 量 范围 有 一 个 感性 认识 ， 我 们 来 看 一 台 写 作 时 用 在 
因特网 上 的 高 端 路 由 器 ， 它 可 支持 16 条 OC-768 链 路 ， 其 吞吐 量 接近 640Gbps. —F 
640Gbps 的 交换 机 ， 如 果 处 理 64 字 节 的 稳定 分 组 流 ， 每 秒 分 组 传输 率 是 

640X109 +(64X8)= 1. 25X 10° pps 





3.4.2 端口 

大 多 数 交 换 机 和 图 3-38 给 出 的 交换 机 结构 在 概念 上 是 相似 的 。 它 们 由 许多 输入 端口 
(input port) 和 输出 端口 (output port) 以 及 一 个 交换 结构 (fabric) 组 成 。 通 常 至 少 有 一 
个 控制 处 理 器 负责 整个 交换 ， 或 者 与 端口 直接 通信 ， 或 者 像 这 里 所 表示 的 那样 通过 交换 结 
构 进 行 交换 。 端 口 与 外 界 通信 ， 它 们 可 能 包含 光纤 的 光 接 收 器 和 激光 发 生 器 、 存 放 等 待 交 
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换 或 传送 分 组 的 缓冲 区 以 及 大 量 能 使 交换 机 发 挥 作 用 的 其 他 电路 ,交换 结构 的 工作 非常 简 
单 且 有 明确 定义 : 当 分 组 出 现时 ， 将 
其 发 送 到 正确 的 输出 端口 。 

这 样 ， 端 口 的 任务 之 一 就 是 处 理 
真实 世界 的 复杂 事物 以 便 交 换 结 构 处 
理 其 中 相对 简单 的 工作 。 例 如 ， 假 设 
交换 机 支持 虚 电 路 通信 模式 。3.1. 2 
节 描 述 的 虚 电 路 映射 表 通 常 是 在 端口 
上 。 端 日 维 护 当 前 使 用 的 虚 电 路 标识 
符 表 ， 以 及 有 关 分 组 输出 的 信息 ， 包 
括 一 个 分 组 应 该 从 每 个 VCI 的 哪个 输出 端口 传输 出 去 和 怎样 重新 映射 才能 确保 在 输出 链 
路 上 的 唯一 性 。 同 样 ， 以 太 网 交换 机 的 端口 存储 以 太 网 地 址 和 输出 端口 之 间 的 映射 表 (如 
3. 1.4 节 所 述 的 网 桥 转 发 表 )。 通 常 ， 当 一 个 分 组 从 输入 端口 传送 到 交换 结构 时 ， 端 口 已 
指出 分 组 要 送 往 哪 里 ， 端 口 通过 传送 某 种 控制 信息 相应 地 建立 交换 结构 ， 或 为 分 组 附加 足 
够 的 信息 〈 如 输出 端口 号 ) 以 便 网 状 结构 自动 完成 任务 。 只 考察 分 组 携带 的 信息 进行 分 组 
交换 的 交换 结构 称 作 自选 路 由 (self-routing)， 因 为 它们 不 需要 额外 的 控制 信息 来 为 分 组 
选择 路 由 。 下 面 讨论 自选 路 由 的 交换 结构 的 一 个 例子 。 

输入 端口 是 第 一 个 出 现 性 能 翔 代 的 地 方 。 输 入 端口 必须 接收 一 个 稳定 分 组 流 ， 分 析 每 
个 分 组 的 首部 信息 来 确定 应 发 送 到 哪个 (或 哪些 ) 输出 端口 ， 并 传送 分 组 到 网 状 结 构 上 。 
它 执行 的 首部 类 型 分 析 的 范围 ， 可 以 从 一 个 简单 的 对 某 个 VCI 的 表 查 找 ， 到 检查 首部 中 
很 多 字段 的 复杂 匹配 算法 。 正 是 这 种 操作 类 型 在 平均 分 组 长 度 很 小 时 可 能 会 造成 问题 。 例 
如 ，64 字 节 的 分 组 到 达 连 接 OC-48 (2.48Gbps) 链 路 的 端口 时 ， 必 须 以 

2.48X10?" 一 (64X8) 王 4.83X106 pps 
的 速率 处 理 分 组 。 换 句 话 说 ， 当 小 的 分 组 尽 可 能 快 地 到 达 这 个 链 路 时 (最 坏 的 情况 是 多 数 
端口 都 进行 处 理 )， 输 入 端口 用 大 约 200ns 处 理 每 一 个 分 组 。 

端口 的 另 一 关键 功能 是 缓存 。 可 以 观察 到 ， 缓 存 可 出 现在 输入 端口 ， 也 可 出 现在 输出 
端口 ， 在 网 状 结构 中 也 可 以 有 缓存 (有 时 称 为 内 部 缓存 (internal buffering))。 简 单 的 输 
和 缓存 方法 有 一 些 严 重 的 局 限 性 。 考 查 一 个 用 先进 先 出 栈 (FIFO) 实现 的 输入 缓冲 区 。 
当 分 组 到 达 交 换 机 时 被 放 入 输入 缓冲 区 ， 然 后 交换 机 试图 把 每 一 个 FIFO 栈 中 的 第 一 个 分 
组 转发 到 相应 的 输出 端口 。 然 而 ， 如 果 几 个 不 同 输入 端口 上 的 第 一 个 分 组 都 要 同时 从 一 个 
输出 端口 输出 ， 那 么 它们 之 中 只 能 有 一 个 被 转发 ， 其 余 的 分 组 必须 留 在 输入 缓冲 区 。 

这 种 特性 的 缺点 是 那些 滞留 在 输入 缓冲 区 前 面 的 


分 组 阻碍 缓冲 区 后 面 的 分 组 传送 到 它们 指定 的 输出 A — 
上 上 ， 尽 管 这 些 输出 之 间 没有 争 用 。 这 种 现象 称 为 队列 “中 X | 
AMI (head-of-line blocking), Kl 3-39 给 出 一 个 简 iiis 





”控制 

















P ye i 交换 机 
单 的 队列 头 阻塞 的 例子 ， 其 中 我 们 看 到 竞争 端口 2 的 Á 
分 组 产生 阻塞 ， 阻 碍 了 后 面 的 一 个 希望 从 端口 1 输出 图 3-39 简单 的 队列 头 阻塞 





后 “对 于 一 个 简单 的 输入 缓冲 交换 机 ， 一 次 只 有 一 个 分 组 能 发 送 到 给 定 的 输出 端口 ， 可 以 设计 多 个 交换 机 来 实现 
-次 转发 多 个 分 组 到 同一 个 输出 端口 ， 但 鉴于 更 高 的 交换 复杂 性 所 带 来 的 消耗 ， 会 对 转发 分 组 数量 设置 上 限 ， 
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量 限制 在 最 大 理论 值 (交换 机 链 路 带宽 的 总 和 ) 的 59 名 。 因 此 ， 大 多 数 交 换 机 采用 纯粹 的 
输出 缓存 技术 ,或 内 部 缓存 和 输出 缓存 混合 的 形式 。 这 些 依赖 输入 缓冲 区 的 技术 使 用 成 熟 
的 缓存 管理 方案 来 避免 队列 头 阻塞 。 

缓冲 区 实际 上 执行 更 复杂 的 任务 ， 而 不 仅仅 是 保存 等 待 传输 的 分 组 .缓冲 区 是 交换 机 
时 延 的 主要 根源 ， 也 是 由 于 缺少 存放 分 组 的 空间 而 使 分 组 多 半 会 被 丢弃 的 地 方 。 因 此 ， 绥 
冲 区 是 决定 交换 机 服务 质量 特性 的 主要 方面 。 例 如 ， 如 果 一 个 分 组 沿 着 有 延迟 保证 的 VC 
被 发 送出 去 ， 则 它 不 能 容许 在 缓冲 区 滞留 太 长 时 间 。 这 意味 着 在 一 般 情 况 下 必须 使 用 符合 较 
HE QoS 要 求 范围 的 分 组 调度 和 丢弃 算法 来 管理 缓冲 区 。 我 们 在 第 6 章 进一步 讨论 这 个 问题 . 


3.4.3 交换 结构 
虽然 有 很 多 关于 设计 高 效 的 和 可 扩展 的 交换 结构 的 深入 研究， 但 对 于 本 节 的 目标 来 
说 ， 只 了 解 一 个 交换 机 的 交换 结构 的 高 级 特性 就 足够 了。 交换 机 网 状 结构 应 当 能 用 最 小 的 
延迟 把 分 组 从 输入 端口 移 到 输出 端口 ， 并 且 是 一 种 能 满足 交换 机 吞吐 量 目标 的 方式 。 这 通 
常 意味 着 交换 结构 呈现 一 定 的 并 行 度 。 有 nn 个 端口 的 高 性 能 交换 结构 常常 可 以 同时 从 它 的 
每 个 输入 端口 把 分 组 移 到 一 个 输出 端口 。 交 换 结 构 类 型 的 实例 如 下 : 
。 共享 总 线 (Shared-Bus): 像 上 面 描述 的 ,这 是 一 种 把 传统 工作 站 用 作 交 换 机 时 的 
一 种 交换 结构 。 因 为 总 线 的 带宽 决定 交换 机 的 吞吐 量 ， 所 以 高 性 能 的 交换 机 通常 
有 专门 设计 的 总 线 而 不 是 PC 用 的 标准 总 线 。 
。 共享 内 存 (Shared-Memory): 在 共享 内 存 交 换 机 中 ,分 组 由 输入 端口 写 进 内 存 的 
一 个 地 方 ， 然 后 由 输出 端口 从 内 存 读 出 ， 这 里 存储 器 的 带宽 决定 交换 机 的 吞吐 量 ， 
所 以 在 这 种 设计 中 通常 使 用 容量 大 和 速度 快 的 存储 器 。 共 享 内 存 交 换 机 和 共享 总 
线 交换 机 相 比 ， 除 了 使 用 专门 设计 的 高 速 内 存 总 线 代 蔡 WO 总 线 外 ,在 原理 上 是 
相似 的 。 
。 BARA (Crossbar): 纵横 式 交 换 机 是 一 个 能 配置 成 
任 一 输入 端口 和 任 一 输出 端口 部 有 相连 路 径 的 矩阵 。 
图 3-40 给 出 一 个 4X4 纵横 式 交 换 机 。 最 简单 的 纵 
横 式 交换 机 的 主要 问题 是 ， 需要 每 个 输出 端口 能 够 
立即 从 所 有 输入 端口 接收 分 组 ， 这 意味 着 每 个 端口 
要 有 一 个 带宽 等 于 总 交换 吞吐 量 的 存储 器 。 在 实际 
中 ， 要 解决 这 个 问题 一 般 需 要 更 复杂 的 设计 (例如 ， 
参见 本 章 最 后 “扩展 阅读 ”中 的 淘汰 式 (Knockout) 
交换 机 和 McKeown 的 虚拟 输出 缓冲 方法 )。 im Bi i P 
。 自选 路 由 (Self-routing): 前 面 提 到 ， 自 选 路 由 交换 图 3-40 一 台 4x4 纵横 式 交 换 机 
结构 依赖 于 分 组 首部 的 某 些 信息 将 每 个 分 组 发 往 正 
确 的 输出 端口 。 通 常 ， 在 输入 端口 ， 在 确定 一 个 分 组 发 往 的 输出 端口 后 ， 一 个 特 
别 的 “自选 路 由 首部 ”被 加 到 分 组 上 (如 图 3-41 所 示 )， 这 个 额外 的 首部 在 分 组 离 
开交 换 机 前 被 删除 。 自 选 路 由 交换 结构 通常 由 大 量 非常 简单 的 2X2 交换 单元 按 规 
则 的 模式 互联 而 成 ， 如 图 3-42 所 示 的 榕树 (‘banyan) 交换 网 状 结构 。 自 选 路 由 网 
状 结构 设计 的 例子 参见 本 章 最 后 的 “扩展 阅读 ”。 
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原始 分 组 首部 
a) 分 组 到 达 输 入 端口 


自由 路 由 首部 








b) 输入 端口 携带 自选 路 由 分 组 首部 并 指引 分 组 到 正确 的 输出 端口 





| 
输出 


Sail | 


[td 


c) 分 组 离开 交换 机 时 自选 路 由 首部 在 输出 端口 被 删除 


图 3-41 为 了 使 交换 结构 把 分 组 发 到 正确 的 输出 端口 ， 一 个 自选 路 
由 首部 在 输入 端口 被 加 到 分 组 上 ， 最 后 被 输出 端口 删除 


自选 路 由 交换 结构 存在 于 大 多 数 可 扩展 性 网 状 结构 
的 设计 方法 中 ， 而 且 对 这 个 主题 有 大 量 的 研究 , “扩展 阅 
读 ” 中 列 出 了 一 些 。 许 多 自选 路 由 交换 结构 如 图 3-42 所 
示 ， 由 2X2 交换 单元 规则 地 互联 组 成 。 例 如 ， 在 榕树 
网 络 中 的 2% 2 交换 单元 执行 一 个 简单 的 任务 : 它们 检 
查 每 个 分 组 首部 的 一 个 二 进 制 位 ， 如 果 它 是 0 就 把 分 组 
送 到 上 面 的 端口 ， 是 1 就 把 分 组 送 到 下 面 的 端口 。 显 
然 ， 如 果 两 个 分 组 同时 到 达 同 一 个 榕树 单元 ， 并 且 它 们 
这 一 位 的 值 也 相同 ， 那 么 它们 将 被 送 到 同一 个 输出 端 
口 ， 冲 突 就 会 发 生 。 预 防 和 处 理 这 种 冲突 是 自选 路 由 交 
换 机 设计 的 一 个 主要 挑战 。 榕 树 网 络 很 巧妙 地 安排 了 一 
个 2X2 交换 单元 阵列 ， 使 得 在 分 组 按 升序 排列 的 情况 
下 ， 它 能 把 所 有 分 组 无 冲突 地 发 送 到 正确 的 输出 端口 。 





图 3-42 通过 榕树 网 络 进行 分 组 
路 由 。3 位 的 数字 表示 四 个 
接收 到 的 分 组 首部 的 值 


从 图 3-42 所 示 的 例子 中 我 们 可 以 了 解 它 是 如 何 工 作 的 ， 这 里 自选 路 由 首部 包含 的 输 
出 端口 号 以 二 进 制 编码 。 第 一 列 的 交换 机 单元 将 检查 位 于 自选 路 由 首部 中 输出 端口 号 的 最 
高 有 效 位 ， 如 果 为 0 则 向 上 路 由 分 组 ， 为 1 则 向 下 路 由 分 组 。 第 二 列 的 交换 机 单元 检查 首 
部 中 的 第 二 位 ， 最 后 一 列 的 交换 单元 将 检查 最 后 一 个 有 效 位 。 从 这 个 例子 中 可 以 看 到 ， 分 
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组 被 无 冲突 地 传送 到 正确 的 目的 端口 。 注 意 从 第 一 列 交换 单元 的 上 方 输出 的 分 组 怎样 到 达 
网 络 的 上 半 部 分 ， 这 样 ， 使 用 端口 号 为 0 一 3 的 分 组 正确 进入 网 络 的 一 半 部 分 ， 第 二 列 又 
使 分 组 正确 进入 网 络 的 四 分 之 一 部 分 ， 最 后 一 列 使 分 组 传送 到 正确 的 输出 端口 。 巧 妙 之 处 
是 交换 单元 的 结构 编排 避免 了 冲突 。 在 网 络 开始 部 分 的 编排 方式 使 用 了 “完全 混合 ”的 布 
线 模式 。 要 使 用 榕树 网 络 建立 完整 的 交换 网 状 结构 需要 一 个 附加 的 部 分 ， 它 用 于 在 分 组 送 
到 榕树 网 络 之 前 对 它们 进行 排序 。Batcher- 榕 树 交换 机 的 设计 是 这 种 方法 的 一 个 著名 的 例 
子 。Batcher 网 络 也 是 由 规则 的 2X2 交换 单元 互联 组 成 ， 用 来 把 分 组 按 降 序 排列 。 分 组 在 
离开 Batcher 网 络 时 ， 将 被 送 到 正确 的 输出 端口 ， 使 得 它们 在 榕树 网 络 中 不 发 生 冲 突 。 

交换 机 设计 中 一 个 有 意思 的 事情 是 用 相同 的 基本 技术 可 以 制造 出 类 型 很 不 相同 的 交换 
机 。 例 如 ， 本 章 讨 论 的 以 太 网 交换 机 和 ATM 交换 机 ， 以 及 下 一 章 讨论 的 因特网 路 由 器 ， 
都 是 用 本 节 给 出 的 设计 思想 建立 的 。 


3.4.4 路 由 器 的 实现 


我 们 已 经 看 到 了 建造 一 台 交 换 机 的 多 种 方法 ， 从 一 个 有 适当 数目 的 网 络 接口 的 通用 工 
作 站 到 某 些 复杂 的 硬件 设计 。 一 般 来 说 ， 建 造 路 由 器 也 有 同样 的 选择 范围 ， 大 多 数 情况 如 
图 3-43 所 示 。 控 制 处 理 器 负责 运行 路 由 协议 并 通常 充当 路 由 器 控制 的 核心 。 交 换 网 状 结 
构 将 分 组 从 一 个 端口 传送 到 另 一 个 端口 ， 就 像 在 交换 机 中 一 样 ， 而 端口 提供 的 功能 是 允许 
路 由 器 与 各 种 类 型 的 链 路 (如 以 太 网 、SONET 等 ) 连接 。 





图 3-43 路 由 器 框图 


关于 路 由 器 设计 与 交换 机 设计 之 间 的 不 同 之 处 ， 有 几 点 值得 注意 。 首 先 ， 路 由 器 必须 
能 够 处 理 可 变 长 度 的 分 组 ， 这 个 限制 不 适用 于 ATM 交换 机 ， 但 无 疑 适用 于 以 太 网 或 帧 中 
继 交 换 机 。 实 际 上 很 多 高 性 能 的 路 由 器 都 被 设计 成 基于 信 元 的 交换 结构 。 在 这 种 情况 下 ， 
端口 必须 能 够 将 可 变 长 度 的 分 组 转换 为 信 元 ， 并 再 由 信 元 转换 为 分 组 。 这 就 是 分 割 和 重组 
(SAR), 在 ATM 网 络 适 配器 中 同样 要 面 对 这 一 问题 。 

可 变 长 度 的 IP 数据 报 所 产生 的 另 一 个 影响 是 使 得 描述 路 由 器 的 性 能 比 描述 只 转发 信 
元 的 交换 机 的 性 能 更 为 困难 。 路 由 器 通常 能 在 每 秒 钟 之 内 转发 固定 数目 的 分 组 ， 这 意味 
着 ， 按 比特 / 秒 衡量 的 总 吞吐 量 依赖 于 分 组 大 小 。 路 由 器 设计 者 通常 需要 选择 在 线 速 率 
Cline rate) 下 支持 的 分 组 长 度 。 也 就 是 说 ， 如 果 pps (分 组 / 秒 ) 是 到 达 一 个 特定 端口 的 分 
组 能 够 被 转发 的 速率 ， 且 linerate 是 按 比特 / 秒 计算 的 端口 的 物理 速率 ， 那 么 按 比 特 计算 的 
packetsize 满足 
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packetsize X pps = linerate 

这 就 是 在 线 速率 下 路 由 器 能 转发 的 分 组 大 小 。 对 较 长 的 分 组 很 可 能 维持 线 速率 ， 但 对 较 短 
的 分 组 则 不 可 能 。 有 时 候 , 设计 者 可 能 决定 支持 的 合适 分 组 尺寸 为 40 字 节 ， 因 为 这 是 带 
有 TCP 首部 的 IP 分 组 的 最 小 尺寸 。 另 一 个 选择 可 能 是 预期 的 平均 分 组 尺寸 ， 可 通过 研究 
网 络 通信 量 的 轨迹 来 确定 。 例 如 ， 因 特 网 主干 网 的 衡量 标准 建议 平均 IP 分 组 大 约 为 300 
字 节 。 然 而 ， 当 遇 到 一 长 串 短 分 组 时 ， 路 由 器 就 跟 不 上 这 个 速度 ， 并 可 能 开始 丢弃 分 组 ， 
从 统计 上 看 ， 这 种 情况 时 有 发 生 ， 如 果 在 路 由 器 遭 到 主动 攻击 时 〈 见 第 8 章 ) 则 是 很 有 可 
能 的 。 此 类 设计 在 很 大 程度 上 依赖 于 成 本 考虑 和 路 由 器 预期 的 应 用 。 

在 执行 转发 IP 分 组 任务 时 ， 路 由 器 可 大 致 描述 为 具有 集中 式 (centralized) 或 分 布 式 
(distributed) 特征 的 转发 模型 。 在 集中 式 模型 中 (如 本 节 先 前 所 述 )，IP 转发 算法 在 一 个 
处 理 所 有 端口 通信 量 的 单一 处 理 引 擎 中 完成 。 在 分 布 式 模型 中 有 多 个 处 理 引 擎 ， 可 能 每 个 
端口 一 个 ， 更 常见 的 情况 是 每 个 线 卡 一 个 ， 这 里 一 个 线 卡 可 以 是 一 个 或 多 个 物理 端口 服 
务 。 每 种 模型 各 有 其 优 缺 点 。 在 同等 条 件 下 ， 因 为 分 布 式 转发 模型 在 整体 上 有 更 强 的 处 理 
能 力 ， 所 以 总 的 看 来 通过 路 由 器 每 秒 可 转发 更 多 分 组 。 但 是 ， 分 布 式 处 理 模 型 也 使 软件 体 
系 结构 更 加 复杂 ， 因 为 每 个 转发 引擎 通常 都 需要 一 份 自己 的 转发 表 副 本 ， 这 就 使 控制 处 理 
器 需要 保证 始终 及 时 地 更 新 转发 表 。 

路 由 器 实现 路 由 与 交换 机 转发 有 很 大 的 不 同 ， 另 一 方面 的 因素 是 IP 转发 算法 本 身 。 
在 网 桥 与 大 部 分 ATM 交换 机 中 ， 转 发 算法 只 包含 在 转发 表 中 寻找 固定 长 度 的 ID (MAC 
地 址 或 者 VCI) 、 寻 找 正确 的 输出 端口 以 及 发 送 包 到 这 个 端口 。 我 们 在 3. 2. 4 节 已 经 看 到 ， 
IP 转发 算法 更 复杂 ， 部 分 原因 是 当 转 发 分 组 大 小 是 在 8 比特 到 32 比特 浮动 而 不 是 固定 值 
时 ， 转 发 一 个 分 组 需要 进行 相应 的 检验 。 

因为 IP 转发 算法 的 高 复杂 性 ，IP 路 由 器 的 很 多 发 展 阶 段 都 致力 于 突破 基本 性 能 限制 。 
然而 ， 当 我 们 讨论 本 章 “ 扩 展 阅 读 ” 的 时 候 ， 仍 然 可 以 看 到 很 多 近年 来 提出 的 IP 转发 创新 
方法 ， 在 本 书写 作 期 间 出 现 了 可 以 每 个 接口 转发 40Gbps IP 流量 的 商用 路 由 器 。 在 整合 了 
很 多 高 性 能 IP 转发 引擎 和 多 种 在 3.4 节 介 绍 的 可 扩展 交换 网 后 ， 就 可 以 建造 具有 T 
(Terabits) 级 别 吞 吐 量 的 路 由 器 。 这 足以 满足 我 们 数 年 后 的 因特网 流量 增长 情况 。 

另 一 种 路 由 实现 方面 的 有 趣 的 技术 是 网 络 处 理 器 (network processor)。 网 络 处 理 器 
是 可 编程 的 标准 工作 站 或 PC 处 理 器 ， 但 是 针对 网 络 任务 做 了 更 高 的 优化 。 例 如 ， 网 络 处 
理 器 可 以 有 特别 适 于 执行 IP 地 址 查找 或 计算 IP 数据 报 校 验 和 的 指令 。 这 些 设备 可 以 用 于 
路 由 融和 其 他 网 络 设备 中 〈 如 防火 墙 ) 。 

关于 网 络 处 理 器 ， 人 们 正在 争论 的 有 趣 问 题 之 一 是 它 能 和 否 比 其 他 设备 做 得 更 好 。 例 
如 ， 如 果 由 于 庞大 工业 的 推动 ,传统 处 理 器 性 能 不 断 地 显著 提高 ， 那 么 ， 网 络 处 理 器 能 跟 
上 步伐 吗 ? 还 有 ， 一 个 追求 通用 性 的 服务 设备 ， 能 比 定制 设计 的 ASIC (特定 应 用 集成 电 
路 ， 如 只 进行 IP 转发 而 不 做 其 他 工作 ) 做 得 更 好 吗 ?” 对 这 些 问 题 的 部 分 回答 取决 于 什么 
叫 “ 做 得 更 好 ”。 例 如 ， 我 们 总 是 需要 权衡 硬件 成 本 、 推 向 市 场 的 时 间 、 性 能 和 灵活 性 这 
些 因素 ， 灵 活性 是 指 路 由 器 建造 出 来 之 后 改变 其 所 支持 功能 的 能 力 。 在 本 章 余 下 部 分 及 后 
面 几 童 中， 我 们 会 看 到 对 路 由 器 功能 的 需求 是 如 何 变化 的 。 在 可 预见 的 将 来 会 存在 广泛 的 
路 由 器 设计 ， 而 且 网 络 处 理 器 也 会 扮演 某 种 角色 。 
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3.5 小 结 


本 瘟 开 始 讨 论 通 过 在 互联 链接 和 网 络 中 使 用 交换 机 和 路 由 咒 来 构造 一 个 可 扩展 的 和 只 
构 的 网 络 时 所 涉及 的 问题 。 最 常用 的 交换 机 使 用 方式 是 局 域 网 互联 ， 特 别 是 以 太 网 分 割 
局 域 网 交换 机 或 网 桥 使 用 原 地 址 学 习 技 术 来 改进 转发 效率 ， 使 用 生成 树 算法 避免 回环 。 这 
些 交 换 机 被 大 量 用 于 数据 中 心 、 学 校 及 公司 的 网 络 中 。 

对 于 异 构 网 络 ， 网际 协议 AP) 的 发 明 形成 了 今天 的 路 由 器 。IP 为 网 络 互联 定义 了 一 
个 简单 通用 的 服务 模型 ， 这 个 模型 基于 尽力 而 为 的 IP 分 组 传输 而 建立 ， 致 力 于 解决 异 构 
网 络 问题 。 这 种 服务 模型 的 一 个 重要 部 分 是 全 局 地 址 问题 ， 即 为 了 相互 间 数 据 交 换 目 的 而 
使 互联 网 中 任意 两 个 节点 可 以 相互 分 辨 。IP 服务 模型 的 简单 程度 使 其 得 到 了 所 有 已 知 的 
网 络 技术 支持 ， 且 ARP 机 制 也 被 用 于 全 局 IP 地 址 到 当地 链 路 层 地 址 的 翻译 工作 ， 

网 络 互联 的 一 项 重要 工作 是 决定 互联 网 中 到 达 任 意 目的 地 的 有 效 路 由 问题 。 互联 网 路 
由 算法 用 分 布 式 方法 解决 这 个 问题 。 本 章 在 应 用 实例 CRIP 和 OSPF) 中 介绍 两 大 类 算 
法 一 一 链 路 状态 算法 和 距离 向 量 算法 。 

交换 机 和 路 由 器 都 需要 以 一 个 较 高 的 速率 从 输入 端 到 输出 端 来 转发 分 组 ， 在 有 些 情况 
下 ， 交 换 机 需要 扩大 容量 来 容纳 几 百 个 或 几 千 个 端口 。 由 于 争 用 问题 ， 以 可 接受 的 代价 建 
造 大 规模 的 高 性 能 交换 机 是 非常 复杂 的 ， 因 此 交换 机 通常 采用 专用 的 硬件 而 不 是 通用 的 工 
作 站 来 构造 。 


接 下 来 会 发 生 什么 : 未 来 因特网 


因特网 无 疑 是 一 个 巨大 的 成 功 ， 很 容易 使 我 们 忘记 曾经 有 不 存在 因特网 的 时 候 。 然 
而 ， REPIN REES AORE 4 对 其 进 atime 比如 电路 交换 电话 网 
并 不 适合 因特网 的 需要 。 当 前 的 因特网 正如 20 世纪 60 年 代 的 电话 网 一 样 被 人 为 建立 了 。 
那么 就 可 以 问 ， 互 联网 之 后 会 是 什么 ? 

没有 人 当时 就 能 知道 问题 的 答案 ， 但 一 些 著名 的 研究 正 努 力 使 某 些 “未 来 因特网 ”成 
为 可 能 。 现 在 很 难 想 象 当 前 的 因特网 会 在 很 短 的 将 来 被 某 种 东西 取代 (尽管 如 此 ， 电 话 网 
络 仍 然 存在 ， 增 加 了 传输 流量 并 转移 于 互联 网 上 )。 如 果 能 够 超越 当今 网 络 增 量 部 署 思维 
的 限制 ， 就 可 以 使 一 些 创 新 成 为 可 能 ， 不 然 我 们 就 会 错过 创新 。 bed Mai ie 
论 “ 清 白 ” 的 研究 。 这 种 研究 着 眼 于 如 果 我 们 能 从 头 开始 的 话 会 出 现 什么 可 能 ， 并 出 于 对 
未 来 的 考虑 而 推迟 部 署 。 

例如 ， 如 果 我 们 假设 因特网 上 的 每 个 节点 都 是 移动 的 呢 ? 我 们 可 能 会 开始 用 一 种 不 同 
的 方式 确定 节点 而 不 是 IP 地 址 ， 包 括 将 什么 样 的 网 络 节点 连接 到 目前 的 信息 ， 我 们 可 能 
会 使 用 一 些 其 他 形式 的 标识 符 。 或 者 ， 作 为 另 一 个 例子 ， 我 们 可 能 会 考虑 把 目前 因特网 建 
成 一 个 不 同 的 信任 模型 。 当 因特网 最 初 被 开发 时 ， 它 似乎 有 理由 默认 每 台 主 机 应 能 发 送信 
息 给 所 有 其 他 主机 。 但 在 如 今 这 个 垃圾 邮件 、 钓 鱼 者 和 拒绝 服务 攻击 者 的 世界 里 ， 人 们 可 
能 会 考虑 不 同 的 对 新 连接 或 未 知 节点 具有 更 多 受 限 初始 能 力 的 信任 模型 。 这 两 个 例子 说 
明 ， 正 如 当前 我 们 知道 一 些 在 20 世纪 70 年 代 没 有 出 现 的 事情 (如 网 络 的 移动 性 和 安全 的 
重要 性 ) 一 样 ， 我 们 可 能 要 为 互联 网 拿 出 非常 不 同 的 设计 。 

这 里 可 以 指出 一 些 观点 。 首 先 ， 你 不 应 该 假设 互联 网 已 经 完成 了 ， 其 体系 结构 是 可 以 
灵活 继承 且 将 持续 发 展 的 。 在 下 一 章 里 我 们 将 看 到 一 些 互 联网 演变 的 例子 。 男 一 点 是 有 很 
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多 种 方法 可 用 于 网 络 研究 : 逐步 开发 可 能 的 想法 是 很 重要 的 ， 但 正如 因特网 先驱 大 卫 ， E 
拉克 的 话 .“ 设 想 未 来 ， 可 以 促进 当前 的 进步 ”。 


扩展 阅读 


对 网 桥 尤 其 是 对 生成 树 算法 的 开创 性 文章 是 下 面 Perlman 的 一 篇 论文 。 不 出 意外 地 有 
大 量 关于 互联 网 不 同方 面 的 文章 ，Cerl 和 Kahn 的 文章 是 最 早 介绍 TCP/IP 体系 结构 并 因 
其 历史 价值 而 值得 阅读 的 。 最 后 ， 关 于 诸多 路 由 器 设计 文章 中 的 一 篇 ，McKeown 的 文章 
描述 一 种 内 部 使 用 信 元 的 交换 机 设计 方法 ， 这 神 方 法 已 成 为 商用 的 作为 高 性 能 路 由 器 转发 
变 长 分 组 的 基础 。 

。 Perlman, R. An algorithm for distributed computation of spanning trees in an ex- 
tended LAN. Proceedings of the Ninth Data Communications Symposium, Pages 
44-53, September 1985. 

e Cerf, V.. and R. Kahn. A protocol for packet network intercommunication. IEEE 
Transactions on Communications COM-22 (5); 637-648, May 1974. 

e McKeown, N. The ‘SLIP scheduling algorithm for input-queued switches. IEEE 
Transactions on Networking 7 (2): 188-201, April 1999. 

在 Perlman 的 另 一 著作 [Per00] 中 可 以 发 现 有 关 网 桥 和 路 由 器 的 精彩 综述 。 这 里 也 
有 丰富 的 关于 ATM 的 文章 ，ATM 的 先驱 Turner LTur85] 最 早 提出 将 基于 信 元 的 网 络 用 
于 集成 服务 模型 。 

很 多 当前 因特网 的 核心 技术 和 协议 都 在 意见 征求 文档 (RFO 中 描述 : 子 网 划分 在 Mo- 
gul 和 Poste [MP85] 中 描述 ，CIDR 在 Fuller 和 Li [FL06]」 中 描述 ，RIP 第 二 版 在 Malkin 

Mal98」 中 定义 ，OSPF 在 Moy [Moy98] PX. Kk 200 页 的 OSPF 规范 是 最 长 的 RCF 

， 但 也 包含 众多 不 同 寻 常 的 关于 如 何 实 现 一 个 协议 的 内 容 。 避 免 IP 碎片 的 原因 被 Kent 
和 Mogul [KM87] 验证 ， 路 径 MTU 发 现 技术 由 Mogul 和 Deering [MD90] 描述 。 

一 篇 关于 未 来 互联 网 的 前 脆性 研究 文章 是 由 Clark 等 人 发 表 的 LCPB+ 05]。 这 篇 文章 
与 正在 进行 的 研究 工作 都 是 围绕 未 来 互联 网 的 ， 下 面 我 们 将 为 此 提供 更 多 的 参考 。 

有 关 交 换 机 结构 已 发 表 了 上 千 篇 文章 。 早 期 很 好 地 解释 Batcher 网 络 的 一 篇 文章 毫 无 
疑问 是 Batcher 自己 写 的 [Bat68]。 排 序 网 络 是 由 Drysdale 和 Young [DY75] 解释 的 ， 而 
= Yeh 等 LYHA87] HMR. Giacopelli 等 [ GHMS91 ] 描述 了 

“阳光 ”交换 机 ， 这 篇 文章 对 交换 机 设计 中 的 流量 分 析 提 供 了 深入 的 见解 。 特 别 是 “阳光 ” 
交换 机 设计 师 首先 认识 到 信 元 有 可 能 突 发 性 到 达 交 换 机 ， 从 而 影响 了 他 们 的 设计 思路 。 在 
Robertazzi [ Rob93 | 中 可 以 找到 对 不 同 交 换 机 网 状 结构 性 能 的 出 色 综 述 。 基 于 可 变 长 度 分 
组 交换 机 设计 的 一 个 例子 可 以 在 Gopal 和 Guerin [GG94 ] 中 找到 。 

已 经 有 大 量 的 工作 旨 在 开发 可 用 于 路 由 器 的 快速 查找 IP 地 址 的 算法 (回想 一 下 路 由 器 
需要 匹配 转发 表 的 最 长 前 级 的 问题 )。PATRICIA 树 是 最 早 应 用 于 此 类 问题 的 算法 [Mor68] 。 
更 多 最 近 的 工作 见 [DBCP97]、[LWVTP97]、[LS98]、[SVSM98] 和 [EVDo4] 中 的 报道 。 
阅读 Partridge 等 [Par98] 的 工作 可 以 概览 此 类 算法 如 何 用 于 构建 高 速 路 由 器 。 

光纤 网 本 身 就 是 一 个 丰富 的 研究 领域 ， 它 有 自己 的 期 刊 、 会 议 等 。 我 们 推荐 Ra- 
maswami 等 [ RS01] 作为 这 个 领域 - 箭 很 好 的 介绍 性 文章 

如 果 想 了 解 有 关 网 络 性 能 的 数学 分 析 ， 那么 就 该 " 由 ARPANET 的 先驱 者 之 一 
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Kleinrock 写 的 一 篇 优秀 著作 [Kle75]。 关 于 分 组 交换 中 应 用 排队 理论 已 发 表 了 很 多 文 
我 们 推荐 Paxson 和 Floyd 的 文章 [LPF94]j， 重 点 介绍 对 因特网 的 重大 贡献 ， 并 推荐 由 Le- 
land 等 人 写 的 一 篇 文章 [LTWW94]， 介绍 有 关 “ 远 程 依赖 ”的 重要 概念 并 说 明 许多 通信 
量 建 模 的 传统 方法 的 不 足 之 处 。 
最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 
。 http://www. nets-find. net/: 美国 国家 自然 科学 基金 关于 “未 来 互联 网 设计 ”研究 
的 网 站 。 
。 http://www. geni. net/: 描述 GENI 网 络 实验 床 的 网 站 ， 人 允许 创建 一 些 之 前 提 到 的 
“清白 ”研究 的 地 方 。 


习题 


1. 使 用 图 3-44 给 出 的 网 络 ， 在 建立 以 下 连接 之 后 ， 给 出 所 有 交换 机 的 虚 电 路 表 。 假设 连 接 的 序列 是 累积 
的 ， 即 建立 第 二 个 连接 时 第 一 个 连接 仍 未 断 开 ， 以 此 类 推 。 同 时 ， 假 设 VCI 的 分 配 始终 选用 每 条 链 路 
上 最 低 的 未 使 用 VCI， 从 0 开始 。 


(a) 主机 A 连接 到 主机 C. (b) 主机 DD 连接 到 主机 B. 
(c) 主机 DD 连接 到 主机 1. (d) 主机 A 连接 到 主机 B. 
(e) 主机 下 连接 到 主机 J。 (D 主机 H 连接 到 主机 A. 

.主机 D : 





l 
交换 机 1 
= vas 





主机 I 





图 3-44 习题 1 和 习题 2 的 网 络 例子 


v 2. 使 用 图 3-44 给 出 的 网 络 ， 在 建立 以 下 连接 之 后 ， 给 出 所 有 交换 


机 的 虚 电 路 表 。 假 设 连接 的 序列 是 累积 的 ， 即 建立 第 二 个 连接 
时 第 一 个 连接 仍 未 断 开 ， 以 此 类 推 。 同 时 ， 假 设 VCI 的 分 配 始 
终 选 用 每 条 链 路 上 最 低 的 未 使 用 VCI， 从 0 开始 。 





(a) 主机 D 连接 到 主机 H。 (b) 主机 B 连接 到 主机 G。 
(c) 主机 下 连接 到 主机 A。 (d) 主机 H 连接 到 主机 C. 
(e) 主机 I 连接 到 主机 E. (f) 主机 H 连接 到 主机 J. % 


3. 对 图 3-45 中 给 出 的 网 络 ， 给 出 每 个 节点 的 数据 报 转发 表 。 链 路 图 3-45 习题 3 的 网 络 











4. 


上 标 有 相应 的 成 本 ， 你 的 表 应 经 由 最 小 成 本 的 路 径 把 每 个 分 组 转发 到 目的 地 。 
给 出 图 3-46 中 SI 一 S4 交换 机 的 转发 表 。 每 台 交 换 机 应 该 有 一 个 默认 路 由 记录 ,用 来 把 未 识别 目的 地 
址 的 分 组 转发 到 OUT。 任 何 与 默认 记录 相 重 复 的 特定 目的 地 表 记 录 应 被 删除 。 


5. 考虑 图 3-47 中 的 虚 电 路 交换 机 。 表 3-15 列 出 每 台 交 换 机 的 VCI 表 ， 即 与 其 连接 相关 的 《端口 ，VCI 


OU 


对 GR (VCI 接口 对 )。 连 接 是 双向 的 。 列 出 所 有 端点 到 端点 的 连接 。 











表 3-15 图 3-47 中 交换 机 的 VC R 


















































交换 机 S1 交换 机 S2 交换 机 S3 
端口 VCI 端口 | va 端口 ! VCI | 端口 | vc | 端口 | vel 端口 | VCl 
| | 
2 | 3 
6. 在 3.1.3 节 的 源 路 由 选择 的 例子 中 , 由 也 接收 的 地 址 是 不 可 逆 的 ， 不 能 帮助 B 知道 如 何 到 达 A。 提 出 
一 个 对 传送 机 制 的 修改 方案 使 之 可 闭 ， 机 制 中 不 应 要 求 给 出 所 有 交换 机 的 全 局 唯一 名 字 。 
7. 提出 一 个 虚 电 路 交换 机 可 使 用 的 机 制 ， 使 得 如 果 一 台 交 换 机 丢失 有 关连 接 的 所 有 状态 信息 ， 那 么 沿 着 


Oo 
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经 过 那 台 交 换 机 的 路 径 上 的 分 组 的 发 送 方 被 通知 该 交换 机 失效 。 


. 提出 一 个 数据 报 交换 机 可 使 用 的 机 制 ， 使 得 如 果 一 台 交 换 机 丢失 全 部 或 部 分 转发 表 ， 受 到 影响 的 发 送 


方 会 被 通知 交换 机 故障 。 


)， 3.1.2 节 描 述 的 虚 电 路 机 制 假设 每 条 链 路 是 点 到 点 的 。 在 链 路 是 共享 介质 (例如 以 太 网 ) 连接 的 情况 


下 ， 扩 展 转 发 算法 。 


- 假设 在 图 3-2 中 已 经 添加 了 一 条 新 链 路 ， 连 接 交换 机 3 的 端口 1 (这 里 是 G) 和 交换 机 1 的 端口 0 


(这 里 是 D)。 但 没有 向 任何 一 台 交 换 机 通知 这 条 链 路 ， 而 且 交 换 机 3 错误 地 认为 主机 也 经 由 端口 1 是 
可 达 的 。 

Ca) 使 用 数据 报 转发 ， 如 果 主 机 A 试图 发 送 消息 给 主机 B， 将 会 发 生 什么 情况 ? 

(b) 使 用 文中 讨论 的 虚 电 路 建立 机 制 ， 如 果 主 机 A 试图 连接 到 主机 B， 将 会 发 生 什么 情况 ? 


. 给 出 路 径 经 过 某 条 链 路 两 次 的 工作 虚 电 路 的 例子 ， 但 是 沿 着 这 条 路 径 发 送 的 数据 报 不 应 产生 无 限 循环 。 
. 在 3.1.2 节 中 ， 每 台 交 换 机 为 输入 链 路 选择 一 个 VCI 值 。 请 说 明 每 台 交 换 机 也 可 以 为 输出 链 路 选择 


VCI 值 ， 并 且 同 一 个 VCI 值 将 被 每 种 方法 选择 。 如 果 每 台 交 换 机 都 选择 输出 VCI， 那么 在 数据 被 发 
送 前 ， 它 还 需要 等 待 一 个 RTT 吗 ? 


.对 图 3-48 中 给 出 的 扩展 LAN， 指 出 哪些 端口 不 会 被 生成 树 算法 所 选择 。 
. 对 图 3-48 中 给 出 的 扩展 LAN， 假 设 网 桥 Bl 遭遇 灾难 性 的 故障 。 指 出 当 经 过 恢复 过 程 并 形成 新 树 后 ， 


哪些 端口 不 会 被 生成 树 算法 所 选择 。 


. 考虑 图 3-49 中 给 出 的 学 习 型 网 桥 的 布局 。 假 设 全 部 网 桥 被 初始 化 为 空 ， 给 出 经 过 下 列传 输 后 Bl ~ Bd 


的 转发 表 : 

。 A 发 送 到 C。 
。C 发 送 到 A。 
* D 发 送 到 C， 
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用 从 某 个 端口 直接 到 达 的 唯一 的 邻居 来 识别 那个 端口 ， 就 是 说 ，Bl 的 端口 可 被 标记 为 “A” 和 “B2” 


(63)—) 
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图 3-48 习题 13 和 习题 14 的 网 络 图 3-49 习题 15 和 习题 16 的 网 络 


G) La eens B 
© 
ET | 
v 16. 如 前 一 道 题 ， 考 虑 图 3- 49 中 的 学 习 型 网 桥 。 假 设 所 有 网 桥 被 初始 化 为 空 ， 在 经 过 以 下 的 传输 后 ， 给 
出 网 桥 B1I 一 B4 的 转发 表 。 


。D 发 送 到 C。 
。C 发 送 到 D, 
。 A 发 送 到 C。 
17. 考虑 图 3-50 中 的 主机 X、Y、Z、W 和 带 有 初始 化 为 空转 发 表 的 学 习 型 网 桥 Bl 、B2 、B3 。 
(a) 假设 XX 发 送 到 W。 哪 个 网 桥 知 道 X 的 位 置 ? Y 的 网 络 接口 见 到 这 个 分 组 了 吗 ? 
(b) 假设 Z 现 在 发 送 到 X。 哪 个 网 桥 知 道 Z 的 位 置 ? Y 的 网 络 接口 见 到 这 个 分 组 吗 ? 
(c) 假设 Y 现在 发 送 到 XX。 哪 个 网 桥 知 道 Y 的 位 置 ? Z 的 网 络 接口 见 到 这 个 分 组 吗 ? 
(d) 最 后 ,假设 W 发 送 到 Y。 哪 个 网 桥 知道 Z 的 位 置 ? W 的 网 络 接口 见 到 这 个 分 组 吗 ? 
18. 给 出 图 3-51 中 的 扩展 LAN 的 生成 树 ， 并 讨论 怎样 解决 任何 平局 问题 。 


©) 
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图 3-50 习题 17 框图 图 3-51 习题 18 的 扩展 LAN 





19. 假设 图 3-52 中 的 两 个 学 习 型 网 桥 B1, B2 形成 一 个 环 路 ， 且 不 能 
实现 生成 树 算 法 。 每 个 网 桥 保 留 一 个 由 《地 址 ， 接 口 》 对 组 成 
的 表 。 

(a) 如 果 M 发 送 到 工会 发 生 什么 情况 ? 
(b) 假设 在 短 时 间 后 L 回答 M。 给 出 导致 来 自 M 的 分 组 和 来 自 L 
的 分 组 以 相反 的 方向 在 环 路 中 循环 的 事件 序列 。 

20. 假设 在 图 3-52 PM 发 送 给 自己 (正常 情况 下 这 绝 不 会 发 生 )。 对 
于 以 下 假设 , 说明 将 发 生 什么 情况 : 

(a) 网 桥 的 学 习 算法 是 在 搜索 表 中 目的 地 址 之 前 设置 (或 更 新 ) ”图 3-52 习题 19 和 习题 20 的 环 
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* 30. 


m 


* 3l. 


32. 


新 的 《〈 源 地 址 ， 接 口 》 记录。 
(b) 找到 目的 地 址 之 后 设置 新 的 源 地 址 。 


21. 考虑 图 3-10 中 的 扩展 LAN。 在 生成 树 算法 中 ， 如 果 网 桥 Bl 不 参与 ， 且 在 下 述 条 件 下 会 发 生 什么 情况 ? 


(a) 简单 地 转发 所 有 生成 树 算法 消息 。 
(b) 丢弃 所 有 生成 树 消息 。 


. 假设 一 些 中 继 器 〈 或 集线器 ) 而 不 是 网 桥 被 连接 成 一 个 环 路 。 


(a) 当 有 节点 传输 时 会 发 生 什么 情况 ? 
(b) 为 什么 生成 树 机 制 很 难 或 不 可 能 在 中 继 器 上 实现 ? 
(c) 提出 一 种 机 制 ， 中 继 器 可 以 检测 环 路 并 关闭 一 些 端口 来 切断 环 路 。 不 要 求 你 的 解决 方案 100% 有 效 。 


. 假设 一 个 网 桥 在 同一 个 网 络 中 连 有 两 个 端口 。 网 桥 怎样 检测 和 纠正 这 种 情况 ? 
. ATM 信 元 首部 占 ATM 链 路 总 带宽 的 百分比 是 多 少 ? 忽略 信 元 填充 或 ATM 适 配 层 首部 。 
. 信 元 转发 方法 (如 ATM) 通常 应 用 虚 电 路 交换 而 不 是 数据 报 转发 方式 。 给 出 解释 这 一 问题 的 专题 讨 


论 (考虑 过 程 问题 )。 


. 假设 一 个 工作 站 具有 800Mbps 的 1/O 总 线 速度 和 2Gbps 的 内 存 带宽 。 假 设 直接 内 存 访 问 CDMA) 用 


于 转移 数据 进出 内 存 ， 那 么 基于 这 个 工作 站 的 交换 机 能 处 理 多 少 个 100Mbps 以 太 网 链 路 接口 ? 


. 假设 一 个 工作 站 的 1/O 总 线 速度 为 1Gbps， 内 存 带 宽 为 2Gbps。 如 果 使 用 DMA 对 内 存 进行 存 取 ， 那 


么 基于 这 个 工作 站 的 交换 机 能 处 理 多 少 个 100Mbps 以 太 网 链 路 接口 ? 


. 假设 一 台 以 电脑 工作 站 构建 的 交换 机 以 每 秒 500 000 个 的 速度 转发 分 组 ， 不 考虑 分 组 大 小 (在 限制 


内 )。 假 设 DMA 用 于 转移 数据 进出 内 存 ， 内 存 带宽 为 2Gbps，I/O 总 线 带宽 为 1Gbps， 分 组 长 度 为 多 
少时 总 线 的 带宽 将 成 为 限制 因素 ? 





. 假设 一 台 交 换 机 有 输入 和 输出 FIFO 缓存 。 分 组 到 达 一 个 输入 端口 后 被 插入 到 它 的 FIFO 的 尾部 。 然 


后 交换 机 试图 转发 每 个 FIFO 首部 的 分 组 到 适当 输出 端口 的 FIFO 尾部 。 

(a) 解释 在 什么 情况 下 ， 这 样 一 台 交 换 机 会 丢失 发 往 一 个 FIFO 为 空 的 输出 端口 的 分 组 。 

(b) 这 种 行为 叫 作 什么 ? 

(c) 假设 FIFO 缓存 可 以 被 自由 地 重新 分 配 ， 提 出 一 个 缓冲 区 改组 过 程 以 避免 上 面 的 问题 ， 并 解释 为 
什么 要 那样 做 。 

一 个 nxn 的 榕树 网 络 的 一 级 包括 mn/2 个 2X2 交换 单元 。 第 一 级 把 分 组 正确 输入 到 网 络 的 一 半 ， 第 二 

级 把 分 组 正确 送 到 网 络 的 1/4 部 分 ， 如 此 下 去 ， 直 到 所 有 分 组 都 被 输送 到 正确 的 端口 。 推 导 构 造 一 

个 nxn 榕树 网 络 需 要 多 少 个 2X2 交换 单元 的 公式 。 用 ”一 8 来 验证 你 的 答案 。 

描述 Batcher 网 络 是 如 何 工作 的 《〈 见 “扩展 阅读 ”一 节 )。 解 释 怎 样 才能 把 Batcher 网 络 和 榕树 网 络 结 

合 来 实现 一 个 交换 网 状 结构 。 

假设 在 全 部 通信 和 量 介 于 一 台 服 务 嚣 和 N 台 “ 客 户 端 ” 之 间 的 环境 中 ， 用 一 台 10Mbps 交换 机 替换 一 

台 10Mbps 以 太 网 集线器 〈 或 中 继 器 ) 。 因 为 所 有 通信 重 仍 需 通 过 服务 器 -交换 机 的 链 路 ， 所 以 名 义 上 

没有 改进 带宽 。 

(a) 你 认为 带宽 会 有 任何 改进 吗 ? 如 果 有 ， 为 什么 ? 

Cb) 交换 机 与 集线器 相 比 还 有 那些 优 缺 点 ? 


33. IP 地 址 的 哪个 方面 使 得 有 必要 给 每 个 接口 分 配 一 个 地 址 ， 而 不 是 给 每 台 主 机 分 配 一 个 地 址 ? 根据 你 


的 答案 ， 为 什么 下 能 容 狼 点 到 点 的 接口 有 非 唯一 的 地 址 或 没有 地 址 ? 


4. 为 什么 IP 首部 中 的 Offset 字段 要 以 8 字 节 为 单位 来 度量 偏 移 量 ? (提示 : 回忆 一 下 ，Offset 字段 长 


13 位 。) 


.有些 信 令 错误 会 导致 一 个 分 组 中 的 所 有 比特 被 重 写 为 全 0 或 全 1。 假 设 分 组 中 的 所 有 比特 〈 包 括 因 特 


网 校 验 和 ) 都 被 重 写 。 一 个 全 0 或 全 1 的 分 组 是 合法 的 IPv4 分 组 吗 ? 因特网 校 验 和 能 捕获 这 样 的 错 
误 吗 ? 为 什么 ? 


36. 假设 一 条 TCP 消息 包含 2 048 字 节 数据 和 20 字 节 的 TCP 首部 ， 这 条 TCP 消息 要 传送 给 IP， 传 送 通 
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过 因特网 上 的 两 个 网 络 〈 即 从 源 主 机 到 一 台 路 由 器 ， 再 从 路 由 器 到 目的 主机 )。 第 一 个 网 络 使 用 11 
字 节 的 首部 ， 并 且 有 一 个 1 024 字 节 的 MTU; 第 二 个 网 络 使 用 8 字 节 的 首部 和 512 字 节 的 MTU. 每 
TRAU MTU Sa ee RSE ACRES. MANTA 到 目的 主机 网 络 层 的 分 段 
序列 的 尺寸 和 偏 移 量 。 假 设 所 有 IP 首部 的 尺寸 是 20 F 

路 径 MTU 是 2 台 主 机 之 间 当 前 路 径 上 所 有 链 路 中 最 小 ei MTU. 假设 我 们 可 以 找到 上 一 题 中 那 条 路 
径 的 路 径 MTU, 并 以 此 信 作 为 所 有 路 径 分 殿 的 MTU。 请 给 出 传送 到 目的 主机 网 络 层 的 分 段 序 列 的 
大 小 和 偏 移 量 。 

假设 一 个 IP 分 组 被 分 为 10 个 分 段 ， 每 个 分 片 丢 失 的 概率 是 A (独立 的 )。 在 合理 的 估计 下 ， 这 章 
味 着 由 于 分 片 的 丢失 而 丢失 整个 分 组 的 概率 是 10%。 如 果 分 组 传输 两 次 ， 那 么 整个 分 组 丢失 的 概率 
是 多 少 ? 

(a) 假设 所 有 接收 到 的 分 片 必须 是 同一 次 传送 的 一 部 分 。 

Cb) 假设 任何 给 定 分 片 可 能 是 任 一 次 传送 的 一 部 分 。 

(c) 解释 为 什么 在 这 里 使 用 Ident 字段 是 适当 的 。 

假设 图 3-18b 中 的 分 片 都 经 过 另 一 个 路 由 器 到 达 一 条 链 路 上 ， 此 链 路 具有 380 字 节 的 MTU, 不 算 链 
路 首部 。 请 给 出 产生 的 分 片 。 如 果 分 组 一 开始 就 按 此 MTU 分 片 ， 将 产生 多 少 个 分 片 ? 

最 大 带宽 是 多 少时 ,一 台 IP 主机 能 够 在 60s 内 发 送 576 字 节 的 分 组 且 不 使 Iden 字段 出 现 回 绕 ? 假设 
IP 的 最 大 分 片 生存 时 间 (MSL) 是 60s， 就 是 说 ， 延 迟 的 分 组 最 多 可 延迟 60s 到 达 。 如 果 超 出 此 带宽 
将 会 怎样 ? 

为 什么 认为 IPv4 是 在 端点 进行 分 片 的 重组 ， 而 不 是 在 下 一 台 路 由 器 上 进行 分 片 的 重组 ”为 什么 IPv6 
完全 舍弃 了 分 片 ? (提示 : 考虑 IP 层 分 片 和 链 路 层 分 片 的 区 别 。) 


. 将 ARP 表 中 各 记录 的 超时 设 为 10 一 15 分 钟 是 一 个 合理 的 折衷 尝试 。 试 描述 超时 值 太 小 或 太 大 时 将 


会 出 现 什 么 问题 。 
IP 当前 使 用 32 位 的 地 址 。 如 果 我 们 重新 设计 IP 使 用 6 字 节 地 址 而 不 是 32 位 地 址 ,那么 是 否 可 以 不 
使 用 ARP? 为 什么 ? 
假设 主机 A 和 主机 B 在 使 用 ARP 的 同一 个 以 太 网 上 被 分 配 了 相同 的 IP 地址 ，B 在 信之 后 启动 。A 的 
现 有 连接 会 怎样 ? 解释 “ 自 ARP”(self-ARP) (启动 时 向 网 络 查 询 自己 的 TP 地址) 如 何 解决 这 个 问题 . 
假设 一 个 IP 实现 按 如 下 算法 接收 目的 IP 地 址 为 D 的 一 个 分 组 P， 
if (<D 的 以 太 网 地 址 在 ARP 的 高 速 缓存 中 )) 
(Rik P) 
else 
(发 送 D HY ARP 查询 》 
(得 到 应 答 回复 后 将 P 放 入 队列 中 》 
(a) 如 果 IP 层 接 收 到 目的 地 址 为 D 的 突 发 分 组 ， 这 个 算法 怎样 才能 不 浪费 资源 ? 
(b) 草拟 一 个 改进 版 。 
(c) 假设 当 缓 冲 区 查找 失败 时 ， 就 在 发 出 一 个 查询 后 简单 地 丢弃 P。 这 个 过 程 如 何 执行 ? 〈 一 些 早期 
的 ARP 实现 据 称 就 是 这 样 做 的 。) 
对 于 图 3-53 中 给 出 的 网 络 ， 给 出 当 以 下 条 件 成 立时 的 像 表 3-10 和 表 3-13 那样 的 全 局 距离 向 量 表 . 
(a) 每 个 节点 只 知道 到 它 直 接 邻 居 的 距离 。 
(b) 每 个 节点 将 前 一 步 中 的 信息 告知 了 它 的 直接 邻居 。 
(c) 步骤 (b) 再 次 发 生 。 


47. 对 于 图 3-54 中 给 出 的 网 络 ， 给 出 当 以 下 条 件 成 立时 的 像 表 3-10 和 表 3-13 那样 的 全 局 距离 向 量 表 ， 


(a) 每 个 节点 只 知道 到 它 直 接 邻 居 的 距离 。 

(b) 每 个 节点 将 前 一 步 中 的 信息 告知 了 它 的 直接 邻居 。 

(c) 步骤 b) 再 次 发 生 。 

对 于 图 3-53 中 给 出 的 网 络 ， 试 述 链 路 状态 算法 如 何 建立 节点 D 的 路 由 表 。 
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2 c) 3 F3 
图 3-53 习题 46、 习 题 48 和 习题 54 的 网 络 图 3-54 习题 47 的 网 络 


49. 使 用 Unix 实用 程序 traceroute (Windows tracert) 来 确定 从 你 的 主机 到 因特网 上 其 他 主机 (如 
cs. princeton. edu 或 www. cisco. com) 要 经 过 多 少 跳 。 要 想 离开 你 的 本 地 站 点 要 经 过 多 少 个 路 由 器 ? 
阅读 traceroute 手册 或 其 他 文档 ， 并 解释 它 是 如 何 实现 的 。 l 

50. Wm RAE traceroute 来 寻找 一 个 未 指定 地 址 的 路 径 会 出 现 什么 情况 ? 如 果 只 是 网 络 部 分 或 主机 部 分 未 
指定 会 怎样 呢 ? 

51. 一 个 站 点 如 图 3-55 所 示 。R1 和 R2 是 路 由 器 ，R2 连接 外 部 网 络 。 独 立 的 LAN 是 以 太 网 。 ee 
由 器 (bridgerouter)， 它 将 通信 量 路 由 给 自己 ， 并 作为 其 他 通信 量 的 网 桥 。 站 点 内 部 使 用 子 网 划分 ， 

个 子 网 中 使 用 ARP。 不 幸 的 是 ， 主 机 A 被 错误 配置 且 不 使 用 子 网 。A 能 到 达 BY C, iia as 


() 
(©) (a a, poe) 


图 3-55 习题 51 的 站 点 





52. 在 一 个 所 有 链 路 开销 均 为 1 的 网 络 中 ， 假 设 我 们 有 如 表 3-16 所 示 的 节点 A 和 节点 下 的 转发 表 ， 给 出 
与 这 两 个 表 相 一 致 的 最 小 网 络 的 图 示 。 


表 3-16 习题 52 的 转发 表 
































v 53. 在 一 个 所 有 链 路 开销 均 为 1 的 网 络 中 ， 假 设 有 如 表 3-17 所 示 的 节点 A 和 节点 下 的 转发 表 。 给 出 与 这 
两 个 表 相 一 致 的 最 小 网 络 的 图 示 。 


表 3-17 习题 53 的 转发 表 
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54. 对 于 图 3-53 中 给 出 的 网 络 ， 假 设 按照 习题 46 建立 所 有 的 转发 表 ， 然 后 CC 一 正 链 路 出 错 ， 给 出 : 

(a) CALE fehl fifa Qa. A, BY D 和 下 的 表 ， 
Cb) A 和 PD 在 它们 下 一 次 互相 交换 信息 之 后 的 表 ， 
(c) AGC 交换 信息 后 ，C 的 表 。 

55. 假设 一 个 路 由 器 建立 了 如 表 3-18 所 示 的 路 由 表 。 这 个 路 表 3-18 习题 55 的 路 由 表 
tia etapa tiie inci e OTR 子 网 号 Fld He 下 一 跳 
组 转发 往 路 由 器 R2、R3 或 R4。 请 描述 当 分 组 的 目的 地 _128.96. 39.0 | 255. 255. 255.128 | 接口 
址 为 以 下 地 址 时 ， 此 路 由 器 将 怎么 做 ， Sak Tee E 
(a) 128.96. 39.10, (b) 128. 96. 40. 12. TAE gar gee oka ul 
Cc) 128. 96. 40. 151, (d) 192. 4. 153. 17. <RUS R4 
(e) 192. 4. 153. 90. 

v 56. 假设 一 个 路 由 器 建立 了 如 表 3-19 所 示 的 路 由 表 。 这 个 路 表 3-19 习题 56 的 路 由 表 
由 器 可 以 直接 通过 接口 0 和 接口 1 传送 分 组 ， 或 者 可 将 分 子 网 号 了 网 推 码 | 下 一 跳 
组 转发 往 路 由 器 R2、R3 或 R4。 假 设 路 由 器 实现 最 长 的 。 128.96.170.0 | 255,255. 254.0 | 接口 (0 
前 级 匹配 。 请 描述 当 分 组 的 目的 地 址 为 以 下 地 址 时 ， 此 路 125 96.1680 255.255.2540 | 接口 1 
TE Amn e E 
(a) 128. 96. 171. 92, (b) 128. 96. 167. 151 =e Ra 
(c) 128.96. 163. 151. (d) 128. 96. 169. 192 
Ce) 128. 96. 165. 121. 

+57. 考虑 图 3-56 中 的 简单 网 络 ， 其 中 A M BEREA De et fea E (一 一 一 (4) 一 一 (8) 
有 链 路 开销 均 为 1。 假设 A-E 链 路 出 错 。 
Ca) 给 出 导致 A 和 也 之 间 路 由 循环 的 路 由 表 更 新 序列 。 图 3-56 习题 57 的 简单 网 络 
(Cb) 估计 情况 (a) 的 概率 ， 假设 A 和 B 每 次 分 别 以 同样 的 平均 速率 随机 地 发 送 路 由 更 新 消息 
(O WF A 在 发 现 A-E 出 错 的 1s 内 广播 一 个 更 新 报告 ,而 BB 一 成 不 变 地 按 每 60s 广播 一 次 .估计 形 

成 循环 的 概率 。 

58. 考虑 图 3-29 所 示 的 网 络 ， 当 A-E 链 路 出 错时 产生 路 由 循环 的 情况 。 列 出 A、B 和 C 中 所 有 与 日 的 地 
E 有关 并 导致 循环 的 表 更 新 序列 。 假 设 一 次 做 一 个 表 更 新 ， 所 有 参与 者 都 遵照 水 平分 割 技 术 ， FEL 
A 在 C 之 前 对 B 发 送 关于 玉 不 可 达 的 初始 报告 ,你 可 以 忽略 不 会 引起 变化 的 更 新 ， 

59. 假设 一 组 路 由 器 都 使 用 水 平分 割 技术 ， 这 里 我 们 考虑 如 果 它 们 还 使 用 反问 抑制 技术 ,那么 在 什么 情 
况 下 会 有 所 不 同 ， 

Ca) 假设 相关 主机 使 用 水 平分 割 ， 说 明 反 向 抑制 对 3.3.2 节 擂 述 的 两 个 例子 中 路 由 循环 的 演变 没有 
影响 。 

Cb) 假设 使 用 水 平分 割 技术 的 路 由 器 A 和 B 由 于 某 种 原因 到 达 了 一 种 状态 ， 在 这 种 状态 下 ,它们 将 
一 给 定 目标 X 的 通信 量 互相 转发 。 试 分 别 描述 在 使 用 和 不 使 用 反 回 抑制 时 这 种 情况 将 如 何 发 展 

(Cc) 给 出 即便 使 用 反 向 抑制 ， 仍 会 使 A 和 了 陷入 如 Cb) 的 循环 状态 的 事件 序列 。( 提 示 : 假设 B 和 
A 经 一 个 非常 慢 的 链 路 相连 。 它 们 都 经 过 第 三 个 节点 C BGA X， 并 同时 间 对 方 通知 其 路 由 。) 

60. 抑制 (hold down) 是 另 一 种 避免 距离 向 量 循环 的 技术 ,主机 在 一 段 时 间 内 忽略 更 新 消息 . 直到 有 机 
会 传播 链 路 失败 消息 为 止 。 考 虑 图 3-57 的 网 络 ， 除 了 E-D 链 路 的 开销 为 10 之 外 ， 其 余 所 有 链 路 的 
开销 均 为 1。 假设 E-A 链 路 崩溃 ， 并 且 BB 随 后 立即 向 A 报告 其 环形 的 正路 由 《这 是 一 条 经 A 的 错误 
路 由 ) 。 说 明 抑 制 解释 的 细节 ， 并 用 它 描述 两 个 网 络 中 路 由 循环 的 演变 . 在 EABD 网 络 中 没有 延迟 发 
现 可 替代 路 由 的 情况 下 ， 怎 样 扩展 抑制 技术 才能 避免 EAB 网 络 中 的 循环 ? 

61. 考虑 如 图 3-58 的 网 络 ， 使 用 链 路 状态 路 由 。 假 设 B-F 链 路 发 生 故 障 ， 并 且 依次 发 生 以 下 事件 : 


(a) 节点 H 通过 一 个 连接 加 到 G 的 右 端 
(b) 节点 D 通过 一 个 连接 加 到 C 的 左 端 
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图 3-57 习题 60 的 网 络 


Co 增加 一 条 新 链 路 D-A 

现在 发 生 故 障 的 B-F 链 路 被 恢复 。 请 描述 哪些 链 路 状态 分 组 将 来 回 扩散 。 假 设 所 有 节点 中 的 初始 序 
号 均 为 1， 旦 无 分 组 超时 ,一 条 链 路 的 两 个 端点 在 链 路 的 LSP 中 使 用 同样 的 序号 ， 并 大 于 以 前 使 用 
过 的 所 有 序号 . 


. 在 如 图 3-59 所 示 的 网 络 中 ,请 给 出 前 向 搜索 算法 在 建立 节点 A 的 路 由 数据 库 时 如 表 3-14 的 步骤 . 
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图 3-58 习题 61 的 网 络 图 3-59 习题 62 的 网 络 


在 如 图 3-60 所 示 的 网 络 中 ， 请 给 出 前 向 搜索 算法 在 建立 节点 A 的 路 由 数据 库 时 如 表 3- 14 那样 的 
AG TR 

假设 图 3-61 所 示 网 络 中 的 节点 参与 链 路 状态 路 由 ，C 接收 到 互相 矛盾 的 LSP: AF A 的 声明 A 一 
B 链 路 不 可 用 ， 而 来 自 于 B 的 声明 A 一 B 链 路 可 用 。 

(a) 这 是 怎么 发 生 的 ? 

Cb) C 应 怎么 做 ? C 能 够 希望 什么 

不 假设 1a shoa lia) # TA 


Dos pa 


图 3-60 习题 63 的 网 络 图 3-61 习题 64 的 网 络 





5. 假设 IP 路 由 此 学习 有 关 IP 网 络 和 子 网 信息 的 方法 和 以 太 网 网 桥 学 习 主 机 信息 的 方法 一 样 : 都 是 通过 


关注 新 主机 的 出 现 和 它们 的 分 组 到 达 的 接口 。 将 这 种 情况 与 现 有 的 距离 向 量 路 由 器 得 知 以 下 信息 时 
的 情况 相 比 较 : 

(a) 一 个 叶子 站 点 有 到 因特网 的 连接 。 

(b) 在 不 连 到 因特网 上 的 一 个 组 织 的 内 部 使 用 。 

假设 路 由 器 只 通过 其 他 路 由 器 接收 新 网 络 通知 ， 且 最 初 的 路 由 器 通过 配置 接收 它们 的 IP 网 络 信息 。 
没有 指定 路 由 带 的 IP 主机 需要 将 地 址 错误 地 指向 自己 的 分 组 丢弃 ， 即 使 它们 有 能 力 正确 转发 这 些 分 
组 。 假 如 没有 这 个 要 求 ， 如 果 一 个 地 址 指向 IP 地 址 A 的 分 组 被 无 意 地 在 链 路 层 广播 ,会 出 现 什么 情 
况 ?” 你 认为 这 个 要 求 的 存在 还 有 什么 其 他 的 正当 理由 吗 ? | 

阅读 Unix/ Windows 实用 程序 netstat 的 手册 或 其 他 文档 。 使 用 netstat 显示 你 的 主机 上 的 当前 IP 路 由 
表 ， 解释 每 一 条 记录 的 日 的 。 实 际 的 最 小 记录 数 是 多 少 ? 

个 组 织 有 一 个 C 类 网 络 12.1.1/24， 并 希望 建立 4 个 部 门 的 子 网 ， 其 中 部 门 A 有 75 台 主 机 、B 有 
35 台 主 机 、C 有 20 台 主 机 、D 有 .18 台 主 机 ， 共 有 148 台 主 机 。 

(a) 给 出 可 以 实现 这 个 日 标的 子 网 掩 码 的 一 个 可 能 的 排列 。 
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74. 


75. 





(Cb) 设想 如 果 部 门 D 增加 到 32 台 主 机 ， 对 组 织 可 以 提出 什么 建议 ， 

假设 主机 A 和 B 在 一 个 有 C 类 IP 网 络 地 址 200. 0.0/24 的 以 太 网 LAN P. 现在 希望 经 过 直接 到 BAY 
连接 将 主机 C 连 到 网 络 上 ( 见 图 3- 62)。 试 解释 如 何 使 用 子 网 做 这 件 
事 ， 并 给 出 子 网 设置 的 实例 。 假 设 不 能 使 用 另外 的 网 络 地 址 。 这 将 会 (c) 


对 以 太 网 LAN 的 大 小 有 什么 影响 ? 
习题 69 中 连接 主机 C 的 另 一 种 方法 是 使 用 代理 ARP (proxy ARP) 和 


路 由 : B 同意 为 去 往 C 和 来 自 C 的 通信 量 进行 路 由 ， 并 且 也 回答 从 以 (4) 

太 网 接收 的 对 C 的 ARP 查询 。 | | 

(a) 当 A 使 用 ARP 定位 然后 再 发 送 一 个 分 组 到 C 时 ， 给 出 所 有 携带 物 

理 地 址 的 分 组 。 

(b) 给 出 B 的 路 由 表 。 它 必须 具有 什么 特点 ? 

假设 两 个 子 网 共享 同一 个 物理 LAN， 每 个 子 网 上 的 主机 可 看 到 另 一 个 子 网 上 的 广播 分 组 。 

(a) 如 果 在 共享 LAN 上 并 存 两 台 服 务 器 ， 每 个 子 网 上 一 个 , 那么 DHCP 将 如 何 进 行 ? 将 可 能 出 现 什 
么 问题 ? 

(b) 这 种 共享 会 影响 ARP 吗 ? 

K 3-20 是 一 个 使 用 CIDR 的 路 由 表 ， 地 址 字 节 为 16 进 制 。 表 3-20 习题 72 的 路 由 表 


C4. 50.0.0/12 中 的 “/12” 表 示 网 络 掩 码 的 前 12 位 是 1， 即 网 / 掩 码 长 度 下 一 跳 


图 3-62 习题 69 的 网 络 












































FF. F0.0.0。 注 意 ， 最 后 3 个 记录 竹 盖 每 个 地 址 ， 因 此 可 代 一 一 co 全 
蔡 一 条 默认 路 由 。 请 说 明 下 列 地址 将 被 传送 到 的 下 一 跳 各 是 一 C1.60.0.0 12 ~e 
什么 : C4. 68. 0. 0/14 | D 
mt a 80. 0. 0.0/1 > 
(a) C4. 5E. 13. 87. (b) C4. 5E. 22. 09, ew Ee 
(c) C3. 41. 80. 02, (d) 5E. 43. 91. 12. 00. 0. 0. 0/2 
(e) C4. 6D. 31. 2E, (f) C4. 6B. 31. 2E, 
# 3-21 是 一 个 使 用 CIDR 的 路 由 表 ， 地 址 字 节 为 16 HE 表 3-21 习题 73 的 路 由 表 
C4. 50. 0. 0/12 中 的 “/12” 表 示 网 络 掩 码 的 前 12 位 是 1， 即 网 / 掩 码 长 度 下 一 跳 
FF. F0. 0.0。 请 说 明 下 列 地 址 将 被 传送 到 的 下 一 跳 各 是 CA; SEs 2 0/28 A 
什么 C4. 5E. 4. 0/22 B 
As C4. 5E. CO. 0/19 C 
(a) C4. 4B. 31. 2E, (b) C4. 5E. 05. 09, i 5 
(c) C4. 4D. 31. 2E. (d) C4. 5E. 03. 87, C4. 4C. 0. 0/14 E 
(e) C4. 5E. 7F. 12, ({) C4. 5E. D1. 02, Co. 0. 0. 0/2 F 








一 个 ISP 有 一 个 /16 前 级 ( 旧 的 B 类 地 址 ), 基于 CIDR 方 法 一 | G 

将 一 部 分 地 址 分 配给 一 家 新 公司 。 新 公司 网 络 中 三 个 部 门 的 机 

器 需要 IP 地 址 : 工程 部 、 市 场 部 和 销售 部 。 这 三 个 部 门 计划 中 的 增长 如 下 : 工程 部 在 第 一 年 开始 时 

有 5 台 机 器 ， 此 后 每 周 增加 一 台 ; 市 场 部 最 多 需要 16 台 机 器 ; 销售 部 的 每 两 个 客户 需要 一 台 机 器 . 

第 一 年 开始 时 ， 公 司 没有 客户 ， 但 是 销售 模式 指出 到 第 二 年 开始 时 ， 公 司 将 有 6 个 客户 ,并且 ,此 

后 每 周 增加 一 个 新 客户 的 概率 为 60%， 失 去 一 个 客户 的 概率 为 20%， 或 者 以 20% 的 概率 维持 原 数 目 

不 变 。 

(a) 如 果 市 场 部 使 用 所 有 16 位 地 址 ， 并 且 销 售 部 和 工程 部 像 计划 预期 的 那样 ， 那 么 ， 至 少 在 7 年 内 ， 
支持 此 公司 增长 计划 的 地 址 范围 是 什么 ? 

(b) 这 样 的 地 址 分 配 可 以 维持 多 长 时 间 ? 当 公司 的 地 址 空间 用 完 时 ， 如 何 给 三 个 部 门 分 配 地 址 ? 

Co) 如果 在 7 年 计划 内 不 使 用 CIDR 编 直方 法， 那么 ， 新 公司 还 有 什么 得 到 地 址 空间 的 选择 ? 

试 提出 一 个 包含 不 同 长 度 前 级 的 IP 转发 表 的 查找 算法 ， 要 求 不 需要 对 整个 表 进 行 线性 搜索 就 能 找到 

最 长 匹配 。 
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任何 表面 的 平等 背后 都 隐藏 着 等 级 。 
一 一 梅森 。 库 利 


问题 : 扩展 到 数 十 亿 节 点 

我 们 已 经 看 到 如 何 创 建 一 个 包含 多 种 类 型 网 络 的 互联 网 。 这 里 ， 我 们 处 理 了 有 措 构 性 
(heterogeneity) 问题 。 网 络 互联 中 的 第 二 个 关键 问题 是 规模 (scale) 这 可 以 说 是 所 
有 网 络 的 基础 问题 。 为 了 理解 规模 问题 ， 有 必要 考查 因特网 的 发 展 过 程 ，30 年 来 ， 因 特 
网 的 规模 几乎 每 年 成 倍 地 增长 。 这 样 的 发 展 迫 使 我 们 面 对 很 多 挑战 。 

如 何在 有 几 百 万 个 甚至 几 十 亿 个 节点 的 网 络 中 找到 一 条 高 效 的 路 径 ? 正如 我 们 在 本 章 
看 到 的 ， 很 多 解决 路 由 扩展 能 力 的 方法 都 依赖 于 引入 层次 结构 。 我 们 可 以 在 域内 以 区 的 形 
式 引 入 层次 ， 也 可 以 利用 层次 结构 扩展 域 间 路 由 系统 。 促 使 互联 网 扩展 为 当前 规模 的 域 间 
路 由 协议 是 边界 网 关 协 议 (BGP)。 我 们 将 讨论 BGP 的 工作 过 程 及 BGP 所 面临 的 因特网 
持续 扩展 带 来 的 挑战 。 

与 路 由 可 扩展 能 力 密切 相 关 的 问题 是 编 址 。20 年 前 IPv4 的 32 位 地 址 即将 用 尽 的 问题 
已 经 显现 出 来 。 因 为 第 5 版 本 的 IP 已 经 在 早期 实验 中 用 过 ， 所 以 这 也 促成 了 新 的 第 六 版 
本 (v6) IP 的 确定 。IPv6 不 仅 从 根本 上 扩展 了 地 址 空间 ， 同 样 也 增加 了 很 多 新 特性 。 其 
中 一 些 新 特性 是 从 IPv4 中 改进 而 来 。 

随 着 因特网 的 持续 增长 ， 一 些 功 能 也 随 之 发 展 。 本 章 最 后 一 节 涵 盖 了 一 些 显 车 的 增强 
因特网 能 力 的 内 容 。 首 先是 多 播 ， 这 是 一 种 基础 服务 模型 的 增强 ， 即 高 效 传输 同类 分 组 到 
一 组 接收 端的 能 力 。 我 们 将 介绍 如 何 将 多 播 融 入 互联 网 ， 并 讨论 多 种 支持 多 播 的 路 由 协 
议 。 第 二 个 增强 点 是 多 协议 标签 交换 (MPLS)， 它 改变 了 IP 网 络 的 转发 机 制 。 此 修改 使 
IP 的 路 由 方式 和 IP 网 络 提供 的 服务 产生 了 一 些 变化 。 最后， 我 们 讨论 移动 性 对 路 由 的 影 
响 ， 并 描述 为 了 支持 移动 主机 和 路 由 器 而 对 IP 进行 的 增强 。 在 讨论 各 项 增强 内 容 的 同时 ， 
可 扩展 性 仍然 不 可 或 缺 。 


4.1 全 球 互联 网 


至 此 ， 我 们 已 经 知道 如 何 将 一 些 异 构 的 网 络 相 连 构 成 互联 网 ， 以 及 如 何 使 用 简单 的 TP 
地 址 的 层次 结构 在 一 个 可 进行 一 定 扩展 的 互联 网 中 进行 路 由 。 我 们 之 所 以 说 可 进行 “一 定 
的 ”扩展 ， 是 因为 即使 每 台 路 由 器 不 需要 知道 连 到 互联 网 上 的 所 有 主机 ， 但 在 至 今 描 述 的 
模型 中 ， 它 还 是 有 必要 知道 连 在 互联 网 上 的 所 有 网 络 。 今 天 的 因特网 上 连 有 几 万 个 网 络 ， 
我 们 讨论 过 的 路 由 协议 还 不 足以 应 付 这 样 的 规模 。 本 节 讨 论 几 种 大 幅度 提高 可 扩展 性 的 技 
术 ， 这些 技术 使 因特网 发 展 到 当前 的 程度 。 

在 介绍 这 些 技术 之 前 ,我 们 首先 要 对 全 球 因特网 的 形态 有 一 个 基本 了 解 。 它 不 只 是 以 
太 网 的 随意 互联 ， 反 之 ， 它 所 呈现 的 形态 反映 出 其 中 互联 了 许多 不 同 的 组 织 机 构 。 图 4-1 
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给 出 了 1990 年 时 因特网 状态 的 一 个 简单 描述 。 从 那 以 后 ， 因 特 网 的 拓扑 发 展 得 越 来 越 复 
杂 ，4.1.2 节 和 图 4-4 更 准确 地 描述 了 当前 的 因特网 ， 但 是 现在 我 们 还 是 使 用 图 4-1 来 
讲述 。 





C NSFNET 主 干 网 >D) 一 一 
Xb C i 区 域 网 


图 4-1 1990 年 时 内 特 网 的 树 形 结构 








这 个 拓扑 结构 突出 的 特征 之 一 是 它 由 连接 到 服务 提供 商 〈ISP) 网 络 (例如 ，BAR- 
RNET 网 是 一 个 服务 于 旧金山 湾 区 节点 的 提供 商 网 络 ) 的 终端 用 户 站 点 (例如 斯 坦 福 大 
学 ) 组 成 。1990 年 ， 很 多 提供 商都 服务 于 有 限 的 地 理 区 域 ， 因此 称 作 区 域 网 (regiona 
network) 。 继 而 ， 区 域 网 又 由 一 个 全 国 范围 的 主干 网 相连 。1990 年 ,美国 国家 科学 基金 
4 (National Science Foundation, NSF) 提供 资金 建立 了 这 个 主干 网 ， 称 之 为 NSFNET 
主干 网 (backbone)。 尽 管 在 图 4-1 上 没有 详细 显示 .但 提供 商 网 络 通 常 由 大 量 连接 到 路 
由 器 上 的 点 到 点 链 路 (如 以 前 的 Tl 和 DS3， 今天 的 OC-48 和 OC- 192 SONET 链 路 ) 构 
成 ; 类 似 地 ， 每 个 终端 用 户 站 点 通常 不 是 一 个 单一 网 络 ， 而 是 由 多 个 通过 路 由 器 和 网 桥 相 
连 的 物理 网 络 组 成 。 

注意 ,在 图 4-1 中 ， 每 个 提供 商 和 终端 用 户 都 可 能 是 管理 上 的 独立 实体 ， 这 就 产生 了 
一 些 有 关 路 由 的 重要 结果 。 例 如 ， 很 可 能 不 同 的 提供 商 对 其 网 络 中 所 使 用 的 最 佳 路 由 协议 
以 及 如 何 给 网 络 中 的 链 路 指定 度量 标准 都 有 不 同 的 看 法 。 因 为 这 种 独立 性 ， 通常 每 个 提供 
商 网 络 就 是 一 个 自治 系统 (autonomous system，AS)。 我 们 将 在 4. 1. 2 节 更 精确 地 定义 此 
术语 ， 但 是 现在 ， 可 将 一 个 AS 看 作 一 个 管理 上 独立 于 其 他 AS 的 网 络 。 

因特网 有 清晰 可 辨 的 结构 ， 这 有 助 于 我 们 解决 可 扩展 性 问题 。 实 际 上 ， 我 们 需要 解决 
两 个 有 关 可 扩展 性 的 问题 。 第 一 个 是 路 由 的 可 扩展 性 问题 。 我 们 需要 找到 减少 路 由 协议 中 
携带 的 和 路 由 器 的 路 由 表 中 存储 的 网 络 号 数目 的 方法 。 第 二 个 是 地 址 利用 问题 ， 即 确保 IP 
地 址 空间 不 会 被 过 快 地 消耗 。 

通过 本 书 ， 我 们 将 一 次 又 一 次 地 了 解 用 来 改进 可 扩展 性 的 层次 结构 的 原理 。 我 们 曾 在 
前 面 章 节 里 看 到 IP 地 址 的 层次 化 结构 对 路 由 可 扩展 性 的 改善 ， 特 别 是 无 类 别 域 间 路 由 
(CIDR) 和 子 网 。 在 下 面 两 节 里 ， 我 们 可 以 看 到 在 未 来 应 用 中 利用 层次 化 〈 以 及 聚集 ) 来 
提供 更 强 的 扩展 能 力 ， 包 括 域内 及 域 间 。 最 后 一 节 考 查 新 兴 的 IPv6 标准 ， 它 的 创建 很 大 
程度 上 是 考虑 可 扩展 性 的 结果 。 


4.1.1 路 由 区 


作为 第 一 个 使 用 层次 化 扩展 路 由 系统 的 例子 ， 我们 来 看 连接 状态 路 由 协议 如 何 用 于 将 
一 个 路 由 域 划 分 为 称 为 区 area) WEHR, W OSPF 和 1IS-IS (不 同 协 议 中 用 的 术语 稍 有 不 
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同 ， 这 里 ,我们 使 用 OSPF)。 通 过 在 层次 结构 中 加 入 这 个 额外 的 层 , 我 们 使 单个 域 变 得 
更 大 而 不 会 使 域内 路 由 协议 负担 过 重 。 

区 是 从 管理 上 配置 成 相互 交换 链 路 状态 信息 的 路 由 器 的 集合 。 主 干 网 区 是 一 个 特殊 的 
区 ， 也 称 为 区 0。 一 个 划分 成 区 的 路 由 域 的 例子 如 图 4-2 所 示 。 路 由 器 R1、R2 和 R3 是 主 
干 网 区 的 成 员 ， 它们 至 少 也 是 一 个 非 主干 网 区 的 成 员 ，R1 实际 上 是 区 1 和 区 2 的 成 员 。 
一 台 既 是 主干 网 区 也 是 非 主 干 网 区 成 员 的 路 由 器 是 区 边界 路 由 器 (ABR)。 注 意 这 些 与 AS 
边界 上 的 路 由 器 有 所 区 别 。 
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图 4-2 一 个 分 为 区 的 域 


区 中 的 路 由 如 3. 3. 3 节 所 述 。 区 中 的 所 有 路 由 器 彼此 间 发 送 链 路 状态 通知 ， 并 由 此 发 
展 出 一 个 完整 且 一 致 的 区 映像 图 。 然 而， 非 区 边界 路 由 器 的 链 路 状态 通知 不 会 离开 产生 它 
们 的 区 。 这 使 扩散 和 路 由 计算 进程 具有 更 为 显著 的 可 扩展 性 。 例 如 ， 区 3 中 的 路 由 器 R4 
永远 看 不 到 区 1 中 路 由 器 R8 的 链 路 状态 通知 。 结 果 ， 它 不 会 知道 除 自己 所 在 区 以 外 的 任 
何 区 的 详细 拓扑 。 

那么 ， 区 中 的 一 台 路 由 器 如 何 确定 一 个 目标 为 另 一 个 区 中 网 络 的 分 组 的 正确 下 一 跳 ? 
如 果 我 们 把 从 一 个 非 主干 网 区 到 另 一 个 非 主 干 网 区 的 分 组 路 径 分 为 三 部 分 ， 答 案 就 变 得 清 
楚 了 。 首 先 ， 分 组 从 源 网 络 传输 到 主干 网 区 ， 然 后 穿 过 主干 网 ， 再 从 主干 网 传输 到 目的 网 
络 。 为 了 做 到 这 一 点 ， 区 边界 路 由 器 汇总 从 一 个 区 中 了 解 到 的 路 由 信息 ， 使 其 能 够 在 给 其 
他 区 的 通知 中 使 用 。 例 如 ，R1 收 到 从 区 1 中 所 有 路 由 器 发 来 的 链 路 状态 通知 ， 并 因此 能 
够 确定 到 区 1 中 任何 网 络 的 开销 。 当 RI 向 区 0 发 送 链 路 状态 通知 时 ， 它 通知 到 达 区 1 中 
网 络 的 开销 ， 就 好 像 那 些 网 络 是 直接 连 在 R1 上 一 样 。 这 使 区 0 中 的 所 有 路 由 器 能 够 了 解 
到 达 区 1 中 所 有 网 络 的 开销 。 然 后 区 边界 路 由 器 汇总 这 些 信息 ， 并 将 其 通知 到 非 主干 网 
区 。 这 样 ， 所 有 路 由 器 都 知道 如 何 到 达 域 中 的 所 有 网 络 。 

注意 在 区 2 中 有 两 个 ABR， 因 此 区 2 中 的 路 由 器 将 不 得 不 选择 其 中 的 一 个 用 于 到 达 主 
干 网 区 。 这 很 简单 ， 由 于 Rl 和 R2 将 通知 到 达 不 同 网 络 的 开销 ， 因 此 ， 区 2 中 路 由 器 运 
行 最 短路 径 算 法 后 ， 哪 一 台 路 由 带 是 更 好 的 选择 就 会 变 得 清楚 。 例 如 ， 对 于 区 1 中 的 目的 
地 来 说 ， 显 然 R1 将 是 比 R2 更 好 的 选择 。 

当 把 一 个 域 划分 为 区 时 ， 网 络 管理 员 在 可 扩展 性 与 路 由 优化 性 之 间 做 出 权衡 。 区 的 使 








用 使 得 所 有 从 一 个 区 到 男 一 个 区 的 分 组 必须 通过 主干 网 区 行进 ， 即 使 存在 一 条 更 短 的 可 用 
路 径 。 例 如 ， 即 使 R4 ARS 直接 相连 ， 分 组 也 不 能 在 它们 之 间 传 递 、 因 为 它们 在 不 同 的 
非 主 干 网 区 。 由 此 证 实 ， 可 扩展 性 的 需求 通常 比 使 用 绝对 最 短路 径 的 需求 更 为 重要 ， 

结论 这 说 明了 网 络 设计 中 的 一 个 重要 原则 。 在 某 种 优化 性 和 可 扩展 性 之 间 经 常 

要 做 出 权衡 。 当 引入 层次 性 后 ， 信 息 对 网 络 中 一 些 节点 是 隐藏 的 ,从 而 限制 了 它 

们 做 出 完美 优化 选择 的 能 力 。 然 而 ， 对 可 扩展 性 来 说 信息 隐藏 是 必需 的 ， 因 为 这 

可 以 避免 所 有 节点 知道 全 局 信息 。 在 大 型 网 络 中 ， 可 扩展 性 永远 是 比 完美 优化 性 

更 迫切 的 设计 目标 。 

最 后 ， 我 们 注意 到 网 络 管理 员 使 用 一 个 技巧 来 更 灵活 地 决定 哪 一 台 路 由 器 进入 区 0 
这 个 技巧 使 用 路 由 器 之 间 虚 链 路 (virtual link) 的 思想 。 这 条 虚 链 路 通过 配置 一 个 非 直接 
连 到 区 0 上 的 路 由 器 与 一 个 直接 连 到 区 0 上 的 路 由 器 之 间 交 换 主 干 网 路 由 信息 来 获得 。 例 
如 ，R8 和 Rl 之 间 可 配置 一 条 虚 链 路 ， 这 使 RS 成 为 主干 网 的 一 部 分 。 现 在 ，R8 将 参与 和 
区 0 中 其 他 路 由 器 的 链 路 状态 通知 扩散 。 从 R8 到 R1 的 虚 链 路 开销 通过 区 ] 中 发 生 的 路 由 
信息 交换 来 确定 。 这 项 技术 有 助 于 提升 路 由 的 优化 。 


4.1.2 域 间 路 由 (BGP)° 


本 节 一 开始 我 们 就 引 人 了 这 样 的 概念 ， 可 按 自治 系统 CAS) 来 组 织 因 特 网 ， 每 个 月 
治 系统 CAS) 在 一 个 单独 的 管理 实体 的 控制 之 下 。 


一 个 复杂 的 公司 内 部 网 络 可 以 是 一 个 AS， 因 特 网 Ye 

的 一 个 服务 提供 网 络 也 可 以 是 一 个 AS。 图 4-3 显 了 $ 

示 了 有 两 个 自治 系统 的 简单 网 络 。 | CSRI ear \ 
自治 系统 的 基本 思想 是 提供 将 一 个 大 型 互联 人 hime / 

网 中 的 路 由 信息 进行 分 层 聚 合 的 一 种 补充 方法 ， 并 SaR d 

以 提高 可 扩展 性 。 现 在 ， 我 们 将 路 由 问题 划分 为 Perm 

两 部 分 : 单个 自治 系统 内 的 路 由 和 自治 系统 间 的 一 S53R 一 、 

路 由 。 由 于 在 因特网 中 自治 系统 的 另 一 个 名 字 是 Pi 自治 系统 O N 


路 由 域 (domain) ， 因 此 我 们 称 路 由 问题 的 两 部 分 3 ars dom 
5 es 


分 别 为 域 间 路 由 和 域内 路 由 。 此 外 ， 为 了 提高 可 
扩展 性 ，AS 模型 将 发 生 在 各 个 不 同 AS 中 的 域内 


路 由 分 离 。 这 样 ， 每 个 AS 都 能 够 运行 自己 选择 的 ee 


任何 域内 路 由 协议 。 如 果 它 希望 的 话 ， 其 至 可 以 
使 用 静态 路 由 或 多 协议 。 这 样 ， 域 间 路 由 问题 就 
成 为 使 不 同 AS 彼此 间 共 享 可 达 性 信息 的 问题 ， 即 共享 通过 给 定 的 AS 可 达 的 IP 地 址 配置 
AR. 

1. 域 间 路 由 的 挑战 

域 间 路 由 当前 所 面临 的 最 大 挑战 多 怕 是 每 个 AS 都 需要 确定 自己 的 路 由 策略 Cpoli- 
cy) 。 在 一 个 特定 的 AS 中 ， 一 个 简单 的 路 由 策略 实现 实例 为 : 只 要 可 能 ,都 优先 通过 AS 


图 4-3 有 两 个 自治 系统 的 网 络 


O 参见 “实验 八 ”。 
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“X” 而 不 是 AS“Y” 来 发 送 流量 ， 只 有 在 AS“Y” 是 唯一 路 径 的 时 候 使 用 AS“Y”， 且 
从 不 允许 从 AS“X” 到 AS“Y” 产 生 流 量 ,， 反之 亦 然 。 当 我 们 付费 使 用 AS“X” 和 AS 
“Y” 以 将 自己 的 AS 连接 到 因特网 ， 且 AS“X” 是 优先 连接 的 提供 商 而 AS“Y” 作 为 后 
备 时 ， 上 述 实例 将 成 为 一 个 典型 的 策略 。 因 为 当 AS“X” 和 AS“Y” 都 作为 提供 商 时 
(假设 我 们 出 资 让 它们 扮演 这 样 的 角色 )， 不 希望 跨 过 我 们 的 网 络 来 承载 它们 之 间 的 流量 
(这 叫 作 中 转 (transit) 流量 )。 我 们 连接 的 AS 越 多 ， 采 用 的 策略 就 越 复 杂 ， 特 别 是 当 所 
考虑 的 主干 网 提供 商 与 几 十 个 其 他 提供 商 或 者 成 百 的 用 户 连接 ， 且 与 每 一 个 连接 都 采用 不 
同 的 商业 安排 时 (这 些 安排 影响 路 由 策略 )。 

域 间 路 由 的 一 个 关键 设计 目标 是 支持 类 似 上 述 例子 的 策略 或 者 更 为 复杂 的 路 由 策略 。 
使 这 个 问题 变 得 更 困难 的 是 我 需要 在 没有 任何 其 他 自治 系统 帮助 的 情况 下 实现 这 样 的 策 
略 ， 并 且 要 面 对 可 能 的 错误 配置 或 者 其 他 自治 系统 的 恶意 行为 。 除 此 以 外 ， 经 常 需 要 隐藏 
(private) 策略 ， 因 为 运行 自治 系统 的 个 体 〈( 大 部 分 是 服务 提供 商 ) 常 相互 竞争 且 不 希望 
自己 的 商业 安排 被 公开 。 

在 因特网 近 些 年 的 历史 中 ， 有 两 种 主要 的 域 间 路 由 协议 。 第 一 种 是 外 部 网 关 协 议 
(Exterior Gateway Protocol, EGP), EGP 有 很 多 局 限 性 ， 其 中 最 严重 的 可 能 是 严重 限制 
了 因特网 的 拓扑 结构 。EGP 基本 上 要 求 因特网 为 树 形 拓扑 结构 ， 或 者 更 确切 地 说 ， 它 是 
在 因特网 树 形 拓扑 结构 的 基础 上 设计 的 ， 如 图 4- 1 所 示 。EGP 不 允许 更 通用 的 拓扑 结构 。 
注意 ， 在 简单 的 树 形 结构 中 ， 只 有 一 个 主干 网 并 且 与 自治 系统 之 间 的 连接 是 父子 关系 而 
不 是 对 等 关系 。 

代替 EGP 的 是 边界 网 关 协 议 (Border Gateway Protocol，BGP) ， 编 写本 书 时 BGP 有 
了 第 4 版 (BGP-4). BGP 比较 复杂 。 本 节 给 出 BGP-4 的 要 点 。BGP 一 直 被 认为 是 互联 网 
最 复杂 的 部 分 之 一 。 我 们 在 此 对 其 中 一 些 重要 部 分 进行 讨论 。 

与 之 前 的 EGP 不 同 ，BGP 并 不 假设 自治 系统 的 互联 方式 ， 它 们 可 形成 任意 图 形 。 这 
种 模型 显然 是 非常 通用 的 ， 足 以 适应 非 树 形 结构 的 互联 网 络 ， 像 今天 的 多 主干 因特网 一 
FE, Al 4-4 给 出 它 的 简化 图 示 。 (我 们 下 面 仍然 会 看 到 有 一 些 互联 网 结构 不 像 树 这 样 简单 ， 
H BGP 对 此 类 结构 不 做 任何 假设 。) 








提供 商 ( ) 对 等 点 


图 4-4 简单 的 多 提供 商 因特网 


与 图 4-1 所 示 的 简单 树 形 结构 的 因特网 不 同 ， 同 样 与 图 4-4 的 结构 也 不 同 ， 今 天 的 因 
特 网 由 互联 的 多 个 主干 网 组 成 ， 这 些 网 络 大 多 由 一 些 私 有 公司 而 不 是 政府 所 运营 。 很 多 互 
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联网 服务 提供 商 CSP) 的 存在 主要 是 为 了 向 “客户 ” ( 即 家 中 有 PC 的 个 人 ) 提供 服务 ， 
而 其 他 ISP 提供 的 服务 与 传统 的 主干 网 服务 更 为 相似 ， 即 连接 到 其 他 提供 商 或 大 型 公司 
通常 ， 很 多 提供 商 在 唯一 的 对 等 点 (peering point) 上 彼此 互联 。 

为 了 更 加 清楚 地 了 解 如 何在 复杂 的 自治 系统 互联 中 管理 路 由 ， 我 们 从 定义 一 些 专 有 名 
词 开始 。 我 们 将 局 部 流量 (local traffic) 定义 为 在 AS 内 的 节点 上 起 止 的 通信 量 ， 并 且 将 
中 转 流 量 (transit traffic) 定义 为 穿 过 一 个 AS 传送 的 通信 量 ， 并 把 AS 分 为 三 类 : 

。 桩 AS: 与 另 一 个 AS 只 有 一 个 连接 ， 这 样 的 AS 只 传送 局 部 通信 量 。 图 4-4 中 的 小 

公司 就 是 一 个 桩 AS 的 例子 。 

。 多 连接 AS: 与 一 个 以 上 的 其 他 AS 有 连接 ， 但 是 拒绝 传送 中 转 通信 和 量 。 例 如 ， 图 

4-4 上 部 的 大 公司 。 
。 中 转 AS: 与 一 个 以 上 的 其 他 AS 有 连接 ， 并 能 传送 局 部 和 中 转 两 种 通信 和 量 ， 如 图 
4-4 中 的 主干 网 提供 商 。 

尽管 3. 3 节 路 由 讨论 的 焦点 是 根据 最 小 化 某 种 链 路 度量 值 来 找到 一 条 最 优 路 径 ， 但 域 
间 路 由 的 目标 则 更 为 复杂 。 首 先 必须 找到 一 条 无 环 的 通 往 预定 目的 地 的 路 径 ， 其 次 ， 路径 
必须 兼容 沿 着 路 径 的 不 同 AS 的 策略 。 就 像 我 们 已 经 看 到 的 ， 那 些 策略 可 能 非常 复杂 。 因 
此 ， 当 域内 关注 于 具有 良好 定义 的 路 径 开 销 优 化 问题 时 ， 域 间 则 关注 于 一 个 更 为 复杂 的 优 
化 问题 ， 就 是 寻找 最 好 的 策略 兼容 (policy-compliant) 路 径 。 

域 间 路 由 之 所 以 困难 ， 有 这 样 几 个 原因 。 首 先是 可 扩展 性 问题 。 因 特 网 主干 网 路 由 咒 
必须 能 够 转发 目标 为 因特网 中 任何 地 址 的 分 组 。 这 就 需要 有 一 张 路 由 表 以 提供 对 任何 合法 
IP 地 址 的 匹配 。 虽 然 CIDR 有 助 于 控制 因特网 的 主干 网 路 由 中 携带 的 不 同 前 级 的 数目 ， 但 
是 仍 不 能 避免 大 量 路 由 信息 的 传递 一 至 编写 此 书 时 大 约 达到 300 000 个 前 级 。 

域 间 路 由 面临 的 进一步 挑战 来 自 于 域 的 自治 特性 。 注 意 ， 每 个 域 可 以 运行 它 自己 的 内 
部 路 由 协议 ， 并 可 以 使 用 任何 它 选用 的 路 径 度 量 值 设置 的 方案 。 这 就 意味 着 计算 穿 过 多 个 
AS 的 有 意义 的 路 径 开 销 是 不 可 能 的 。 一 个 值 为 1 000 的 开销 对 某 个 提供 商 来 说 可 能 是 一 
条 很 好 的 路 径 ， 而 对 另 一 个 提供 商 来 说 可 能 是 很 糟糕 的 。 因 此 ， 域 间 路 由 只 通知 可 达 性 
(reachability)。 可 达 性 概念 基本 上 可 以 描述 为 “你 能 通过 这 个 AS 到 达 这 个 网 络 ”。 这 就 意 
味 着 在 域 间 路 由 中 ， 选 择 一 条 最 优 路 径 是 根本 不 可 能 的 。 

域 间 的 自 组 织 状 况 引发 了 信任 的 问题 。 提 供 商 A 可 能 不 愿意 相信 来 自 提供 商 B 的 某 
些 通知 ， 担 心 提 供 商 B 通知 错误 的 路 由 信息 。 例 如 ， 当 提供 商 B 通 知 到 因特网 上 任何 地 方 
的 一 条 成 功 路 由 时 ， 如 果 提 供 商 B 错误 地 配置 了 它 的 路 由 器 或 者 没有 足够 的 容量 承载 通信 
量 ， 那 么 信任 它 将 是 灾难 性 的 。 

与 信任 相关 的 问题 与 支持 上 述 复杂 策略 的 需要 相关 。 例 如 ， 我们 可 能 希望 信任 一 个 部 
分 提供 商 仅 当 其 通知 可 达 特 定 的 前 缀 时 ， 因 此 可 以 采用 这 样 的 策略 : 使 用 AS“X” 到 达 
AWA p 或 g， 当 且 仅 当 AS“X” 通 知 那 些 前 级 可 达 。 

2. BGP 基础 

每 个 AS 都 有 一 个 或 多 个 边界 路 由 器 ， 通 过 它 的 分 组 进入 或 离开 AS, ER 4-3 所 示 的 
简单 例子 中 ， 路 由 器 R2 和 R4 称 为 边界 路 由 器 。( 多 年 来 ， 路 由 器 有 时 也 称 为 网 关 (gate 





日 ”查看 本 章 结 尾 给 出 的 网 址 来 确定 该 值 的 当前 估计 值 。 
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way)， 因 此 有 了 协议 BGP 和 EGP 的 名 称 .) 边界 路 由 器 是 一 个 简单 的 掌管 在 自治 系统 之 
间 转 发 分 组 任务 的 IP 路 由 器 。 

每 一 个 参与 BGP 的 AS 必须 至 少 有 一 个 BGP“ 代 言 人 ”， 这 个 代言 人 是 一 台 路 由 器 ， 
并 与 其 他 自治 系统 的 BGP 代言 人 交流 。 通 常会 发 现 边 界 路 由 器 也 是 BGP 代言 人 ， 但 边界 
路 由 器 并 不 是 一 定 要 成 为 BGP 代言 人 。 

BGP 并 不 属于 3. 3 节 描 述 的 两 类 主要 的 路 由 协议 (距离 向 量 和 链 路 状态 协议 )。 与 这 
些 协议 不 同 ，BGP 将 以 AS 枚 举 列表 的 形式 通知 到 达 某 个 特定 网 络 的 完整 路 径 (complete 
path)。 正 因为 这 样 ，BGP 常 被 称 为 路 径 向 量 (path-vector) 协议 。 这 是 根据 一 个 特定 AS 的 
意愿 而 做 出 如 上 描述 的 那 类 策略 决策 所 必需 的 。 而 且 它 使 得 路 由 循环 很 容易 被 检测 出 来 。 

我 们 以 图 4-5 所 示 的 网 络 来 说 明 这 个 过 程 。 假 设 提供 商 是 中 转 网 络 ， 而 客户 网 络 是 
桩 。 提 供 商 A (AS2) AY BGP 代言 人 可 通知 分 配给 客户 PP 和 Q 的 网 络 号 的 可 达 性 信息 。 
实际 上 就 是 “网 络 128. 96 、192. 4. 153、192. 4. 32 和 192. 4. 3 可 从 AS2 直接 到 达 ”。 主 干 
网 收 到 这 条 通知 后 ， 再 通知 “网 络 128. 96、192. 4.153、192. 4. 32 和 192. 4.3 可 经 路 径 
(AS1, AS2> 到达”。 类 似 地 ， 它 还 可 以 通知 “网 络 192. 12. 69、192. 4. 54 和 192. 4. 23 可 
经 路 径 (AS1，AS3》 到 达 ”。 


128.96 
-一 人 (AS4) 192.4.153 
区 域 网 提供 商 A 
S (AS2) A RPO 1924.32 
a (ass) / 192.43 
¢ 192.12.69 
NY KERB OY 
(AS3 ) 4 
Se 192.4.54 


图 4-5 一 个 运行 BGP 的 网 络 的 例子 






BGP 一 项 重要 的 任务 是 防止 建立 带 环 路 径 。 例 如 图 4-6 中 的 网 络 与 图 4-5 不 同 的 地 方 
在 于 ,在 AS2 和 AS3 间 多 了 一 个 连接 ,但 带 来 的 影响 在 于 自治 系统 形成 了 闭环 。 假设 
AS] 得 知 它 可 经 AS2 到 达 网 络 128. 96， 因 此 ， 它 将 此 事实 通知 AS3，AS3 又 通知 AS2。 
AS2 现在 可 断定 应 将 目标 是 128. 96 的 分 组 发 往 AS3，AS3 又 将 分 组 发 往 AS1，AS1 再 发 
回 到 AS2， 它 们 将 无 限 循环 下 去 。 这 种 现象 可 通过 在 路 由 消息 中 携带 完整 的 AS 路 径 来 避 
免 。 这 种 情况 下 ，AS2 从 AS3 接收 的 通 往 128.96 的 通知 将 包括 一 条 AS 路 径 (AS3， 
AS1，AS2，AS4)。AS2 看 到 它 自己 在 路 径 中 ， 因 而 得 出 这 是 一 条 无 用 路 径 的 结论 。 

为 了 使 这 种 闭环 预防 技术 生效 ，BGP 中 携带 的 AS 号 应 该 唯一 。 例 如 ， 在 上 面 的 例子 
中 ， 如 果 其 他 AS 不 以 同样 方法 标识 自己 ，AS2 就 只 能 在 AS 路 径 中 识别 出 自己 。AS 号 是 
由 中 心 授权 机 构 分 配 的 保证 唯一 性 的 16 位 数字 。 由 于 16 位 只 允许 约 65 000 个 AS， 看 起 
来 似乎 并 不 多 ， 因 此 我 们 注意 到 桩 AS 不 需要 唯一 的 AS 号 ， 这 攻 盖 了 绝 大 多 数 非 提供 商 
KEI 





S 32 位 的 AS 号 也 已 经 被 定义 并 在 2009 年 左右 开始 使 用 ， 这 样 就 可 以 确保 AS 号 空间 不 会 成 为 稀缺 资源 。 
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图 4-6 一 个 自 组 织 系统 闭环 的 例子 


我 们 应 该 注意 ， 一 个 给 定 的 AS 仅 通知 自 认 为 足够 好 的 路 由 。 也 就 是 说 ， 如 果 BGP 代 
言 人 有 多 条 到 达 同 一 目的 地 的 路 由 可 供 选 择 ， 那 么 它 将 根据 自己 的 本 地 策略 来 选择 最 好 的 
一 条 ， 然 后 这 就 是 它 通 知 的 路 由 。 而 且 ， 即 使 BGP 代言 人 有 一 条 到 达 某 个 目的 地 的 路 由 ， 
它 也 没有 通知 的 义务 。 这 就 是 AS 如 何 实现 不 提供 中 转 的 策略 : 拒绝 通知 去 往 那 些 未 包含 
在 这 个 AS 前 组 的 路 由 ， 即 使 它 知道 怎么 到 达 这 些 地 址 。 

如 果 一 条 路 径 上 的 链 路 出 现 故 障 或 策略 改变 ，BGP 代言 人 需要 0 ls 
能 够 取消 之 前 通知 的 路 径 。 这 由 一 种 称 为 撤销 路 由 (withdrawn 





| 撤消 的 路 由 长 度 
route) 的 负 通 知 形式 来 完成 。 正 的 和 负 的 可 达 性 信息 都 携带 在 一 个 “一 一 一 一 一 
BGP 更 新 消息 中 ， 格 式 如 图 4-7 所 示 。 (注意 图 中 的 字段 长 度 是 16 ||| NS 
比特 的 倍数 ， 这 与 本 章 中 其 他 的 分 组 格式 不 同 。) EEEN 
不 像 前 面 章节 中 描述 的 路 由 协议 ，BGP 被 定义 为 运行 在 5. 2 节 “总 路 径 属性 长 度 
描述 的 可 靠 传 输 协议 一 一 TCP 之 上 。 因 为 BGP 代言 人 可 以 依赖 


路 径 属性 


TCP 而 变 得 可 靠 ， 这 意味 着 从 一 个 代言 人 向 另 一 个 代言 人 发 出 的 任 ， TEK) 

何 信息 不 需要 重 发 。 因 此 ， 只 要 不 出 现 变化 ， 实 际 上 一 个 BGP 代言 网 络 层 可 达 性 信息 

人 就 可 以 只 是 偶尔 发 送 一 个 “keep alive” HE, a “REER | (可 变 长 ) 

里 ， 无 任何 变化 "。 如 果 这 人 台 路 由 器 崩溃 ， 就 将 停止 发 送 这 类 消息 ， 
从 它 那 里 获取 路 由 的 其 他 路 由 器 就 会 知道 那些 路 由 不 再 有 效 。 p 


3. 常见 AS 关系 和 策略 
之 前 提 到 的 策略 可 能 非常 复杂 ， 事 实证 明 还 是 有 一 些 常见 策略 能 够 反映 自治 系统 的 关 
系 。 最 常见 的 关系 如 图 4-8 所 示 ， 与 之 相关 的 三 种 常见 关系 和 策略 如 下 : 
。 提供 商 -客户 。 提 供 商 需要 把 客户 接 人 网 络 。 客 户 可 能 是 一 个 公司 ， 或 是 小 规模 的 
ISP (他 们 自己 本 身 也 有 客户 )。 因 
此 常见 策略 是 向 客户 通知 已 知 的 所 有 
路 由 ， 并 将 从 客户 那里 获取 的 路 由 信 
息 通 知 所 有 路 由 器 。 
客户 -提供 商 。 在 另 一 个 方向 上 ， 客 
户 想 要 通过 提供 商 获 得 发 送 给 他 (或 
他 的 客户 ， 如 果 他 拥有 客户 ) 的 流 
量 ， 并 且 想 通过 提供 商 发 送 数据 流量 K 4-8 常见 AS 关系 





客户 -提供 商 链接 
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到 其 他 网 络 。 因 此 这 种 情况 下 的 常见 策略 就 是 向 提供 商 通知 自己 的 前 级 和 从 客户 
那里 学 到 的 路 由 信息 ， 向 客户 通知 从 提供 商 那 里 学 到 的 路 由 , 但 是 并 不 将 从 一 个 
提供 商学 到 的 路 由 通知 给 另 一 个 提供 商 。 最 后 一 步 是 确认 客户 自己 没有 从 一 个 提 
供 商 向 男 一 个 提供 商 传递 流量 ， 因 为 这 是 支付 网 络 流量 费用 的 人 所 不 愿 看 到 的 。 

。 对 等 。 第 三 种 选择 是 自治 系统 间 的 对 等 关系 。 两 个 提供 商 是 对 等 的 且 为 对 方 的 客 
户 提供 接 人 且 不 用 向 对 方 付 费 。 这 里 的 典型 策略 是 向 对 等 提供 商 通知 从 客户 学 到 
的 路 由 ， 向 客户 通知 从 提供 商学 到 的 路 由 ， 但 并 不 向 其 他 提供 商 通知 从 对 等 方 学 
到 的 路 由 ， 反 之 亦 然 。 

图 中 有 一 点 值得 注意 ， 即 它 向 明显 无 结构 的 网 络 加 入 一 些 结构 的 方式 。 在 这 个 层次 的 
底层 有 桩 网 络 ， 它 是 一 个 或 多 个 提供 商 的 客户 ， 沿 着 层次 往 上 走 ， 我 们 可 以 看 到 其 他 一 些 
提供 商 被 作为 客户 的 提供 商 。 最 上 层 的 提供 商 有 客户 和 对 等 方 ， 但 它 不 是 其 他 服务 商 的 客 
户 。 这 些 提 供 商 称 为 Tier-1 提供 商 。 

结论 ”让 我 们 回 到 现实 的 问题 : 这 些 方法 如 何 帮 助 我 们 建造 可 扩展 的 网 络 ? 首 

先 ， 套 与 BGP 的 节点 数目 与 AS 的 数目 是 同一 数量 级 ,而 AS 数目 比 网 络 数目 小 

得 多 。 其 次 ， 找 到 一 条 好 的 域 间 路 由 即 是 找到 一 条 通 往 正 确 的 边界 路 由 器 的 路 

径 。 而 每 个 AS 只 有 少数 几 个 边界 路 由 器 。 这 样 ， 我 们 就 将 路 由 问题 简单 地 划分 

为 可 管理 的 几 部 分 ， 再 一 次 使 用 一 个 新 的 层次 来 增加 可 扩展 性 。 域 间 路 由 的 复杂 

性 取决 于 AS 的 数量 ， 而 域内 路 由 的 复杂 性 取决 于 一 个 AS 内 的 网 络 数目 。 

4. 集成 域 间 路 由 和 域内 路 由 

前 面 的 讨论 说 明了 BGP 代言 人 如 何 了 解 域 间 路 由 信息 ， 却 没有 说 明 域 中 所 有 其 他 路 
由 器 如 何 得 到 这 个 信息 的 问题 。 解 决 此 问题 有 几 种 方法 。 

下 我 们 从 一 种 非常 简单 而 且 也 非常 普遍 的 情况 开始 讨论 。 对 于 一 个 只 有 一 点 与 其 他 
AS 连接 的 村 AS 来 说 ， 显 然 边 界 路 由 器 是 AS 外 部 所 有 路 由 的 唯一 选择 。 这 样 的 路 由 器 可 
以 将 一 个 默认 路 由 (default route) 注入 域内 路 由 协议 。 实 际 上 ， 它 表明 任何 一 个 在 域内 
协议 中 没有 被 明确 通知 的 网 络 都 可 以 通过 边界 路 由 右 到 达 。 回 忆 一 下 4.1 节 对 于 IP 转发 
的 讨论 ， 转 发 表 中 的 默认 项 在 所 有 指定 项 之 后 ， 并 且 与 任何 匹配 失败 的 项 匹配 。 

下 一 步 是 使 从 外 部 AS 了 解 到 的 特定 路 由 注入 边界 路 由 器 。 例 如 ， 考 虑 连接 到 客户 
AS 的 提供 商 AS 的 边界 路 由 器 。 此 路 由 器 通 过 BGP 或 通过 已 经 配置 在 其 中 的 信息 ， 知 道 
网 络 前 缀 192. 4.54/24 位 于 该 客户 AS 中 。 它 可 以 将 到 此 前 级 的 路 由 注入 提供 商 AS 运行 
的 路 由 协议 。 这 将 是 这 样 的 一 种 通知 :“ 我 有 一 条 到 192. 4. 54/24 的 开销 为 X 的 链 路 ”。 这 
将 使 提供 商 AS 中 的 其 他 路 由 器 知道 可 将 目标 为 那个 前 级 的 分 组 发 往 此 边界 路 由 器 。 

最 后 一 级 复杂 性 出 现在 主 十 网 中 ， 主 干 网 从 BGP 了 解 到 如 此 多 的 路 由 信息 ， 以 至 于 
因 开 销 太 大 而 不 能 将 其 注入 域内 协议 。 例 如 ， 如 果 一 个 边界 路 由 器 想 要 注入 从 另 一 个 AS 
了 解 到 的 10 000 个 前 级 ， 它 将 不 得 不 发 送 非常 大 的 链 路 状态 分 组 到 AS 中 的 其 他 路 由 器 ， 
并 且 最 短路 径 的 计算 也 将 变 得 很 复杂 。 因 此 ， 主 干 网 中 的 路 由 器 使 用 BGP 的 一 种 称 为 内 
部 BGP (iBGP) 的 变化 形式 ， 有 效 地 将 AS 边界 上 BGP 代言 人 了 解 到 的 信息 再 次 分 发 到 
AS 中 所 有 其 他 路 由 器 上 。 (前文 讨论 过 BGP 的 另 一 种 变化 形式 ， 即 运行 在 自治 系统 之 间 
的 外 部 BGP (eBGP).) iBGP 合 As 中 任何 路 由 器 在 发 送 分 组 到 任何 地 址 时 都 能 够 获知 最 
好 的 边界 路 由 器 以 供 使 用 。 同 时 ，AS 中 每 台 路 由 器 明白 如 何在 没有 注入 信息 的 情况 下 ， 
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使 用 常规 的 域内 协议 到 达 每 台 边 界 路 由 器 。 通 过 将 两 类 信息 合并 ，AS H Be Ge rh a8 a 
能 够 确定 所 有 前 缀 相应 的 下 一 跳 。 

在 图 4-9 中 给 出 了 一 个 简单 网 络 来 表示 单个 AS， 看 看 它 是 如 何 工 作 的 。 这 里 有 三 台 
gy 分 别 是 A、D 入。 路 由 器 向 其 他 AS 发 出 eBGP， 并且 学 习 如 何 到 达 不 同 的 
前 级。 这 三 台 边界 路 由 器 通过 在 AS 所 有 路 由 器 中 建立 BGP 会 话 网 格 来 相互 连接 ， 包括 
ee ee, 
BY) A pvt 7 KY EE Rl 下 
从 其 iBGP 会 话 中 学 到 的 信息 。 它 学 到 了 一 些 经 过 路 由 器 A、D 和 下 有 最 佳 路 线 的 相应 前 
SEAR. 同时， 也 有 AS 中 的 路 由 器 都 在 送行 一 些 域内 协议 ， 比 如 路 由 信息 协议 CRIP) 
re eh (域内 协议 中 的 一 个 典型 术语 是 IGP 一 一 内 部 网 关 协 议 。) 
通过 完整 的 分 段 协 议 ， 会 了 如 何 到 达 如 最 左 侧 表 中 所 列 的 那些 域内 的 其 他 节点 。 比 
如 ， 要 到 达 路 由 器 上 ，B 需 oat ti 最 后 ， 在 最 右 侧 的 表 中 ，B 同时 放 管 
了 所 有 描述 ， 将 从 IBGP 学 到 的 外 部 前 级 信息 合成 起 来 。 这 些 BGP 信息 包含 从 IGP 中 得 
到 的 内 部 路 由 器 到 边界 路 由 器 的 信息 。 因 此 ， 如 果 一 个 像 18. 0/16 这 样 的 前 级 是 通过 边界 
路 由 器 可 达 的 ， 而 且 最 佳 内 部 路 径 是 通过 C 到 达 正 ， 那 么 接 下 来 所 有 目标 为 18. 0/16 的 分 
组 将 首先 发 向 C。 利 用 这 种 方法 ， 所 有 AS 中 的 路 由 器 可 以 为 所 有 通过 其 他 AS 中 边界 路 
由 器 可 达 的 前 级 建立 完整 的 路 由 表 。 
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AS 的 BGP 表 路 由 器 B 的 IGP 表 
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[en 
128. -34/16 | C 
发 往 / 来 自 in Say 
其 他 自治 系统 1128.69.16 A | 
图 4-9 域内 和 域 间 路 由 举例 。 所 有 路 由 器 路 由 器 的 合成 表 
运行 iBGP 和 IRP， 边 界 路 由 器 (A, D, E) 图 4-10 路 由 器 BB 的 BGP 路 由 表 、 
运行 eBGP 到 达 其 他 AS IGP 路 由 表 和 合成 表 


4.1.3 IP 版 本 6 (IPv6) 


从 很 多 方面 来 看 ， 建 立新 版 IP 的 动机 都 很 简单 : 解决 IP 地 址 耗 尽 的 问题 。 划 分 子 网 
和 CIDR 有 助 于 抑制 因特网 地 址 空间 的 消耗 ， 也 有 助 于 控制 因特网 路 由 器 中 所 需 的 路 由 表 
信息 的 增长 。 然 而 ， 这 些 技术 终究 有 一 天 无 法 再 满足 需要 。 特 别 是 ， 实际 上 不 可 能 达到 
100% 的 地 址 利用 率 ， 因 此 在 第 40 亿 台 主机 连 到 因特网 之 前 ， 束 可 能 已 经 用 完了 地 址 空 
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间 。 即 使 我 们 能 够 使 用 所 有 40 亿 个 地 址 ， 也 不 难 想象 编号 耗 尽 的 情况 ， 现 在 IP 地 址 不 仅 
分 配给 盘 型 的 计算 机 ， 还 分 配给 手机 、 电 视 和 其 他 家 庭 应 用 设备 。 所 有 这 些 可 能 性 都 说 明 
最 终 需要 一 个 比 32 位 提供 的 更 大 的 地 址 空间 。 

1. 历史 观点 

IETF 从 1991 年 开始 就 看 到 了 IP 地 址 空间 扩展 的 问题 ， 并 提出 了 几 种 苦 代 方法 。 由 
于 IP 地 址 携带 在 每 个 IP 分 组 的 首部 中 ， 因 此 地 址 尺寸 的 增长 使 得 IP 首部 必须 改变 。 这 
意味 着 需要 新 版 IP， 并 随 之 需要 用 于 因特网 中 每 台 主 机 和 路 由 器 的 新 软件 。 显 然 ， 这 并 不 
是 一 件 小 事 ， 而 是 需要 深思 熟 虑 的 大 改变 。 

定义 新 版 本 IP 的 成 果 称 为 下 一 代 IP 或 IPng。 随 着 工作 的 进展 ， 一 个 正式 的 版 本 号 被 
Hae. ， 因 此 IPng 现 称 为 IPv6 OP 版 本 6)。 注 意 ， 本 章 到 目前 为 止 讨论 的 IP 版 本 是 第 4 
版 (IPv4)。 编 号 不 连续 的 原因 是 版 本 号 5 用 于 几 年 前 的 一 个 实验 协议 。 

新 版 本 IP 的 显著 变化 引起 了 滚雪球 现象 。 网 络 设 计 者 一 般 认 为 ， 如 果 所 设计 的 网 络 
规模 有 可 能 改变 ,那么 最 好 尽 可 能 同时 调整 IP 中 的 其 他 内 容 。 因 此 ，IETF 做 了 一 项 有 关 
希望 在 新 版 IP 中 加 入 特性 的 问卷 调查 。 除 了 提供 可 扩展 的 路 由 和 编 址 的 需求 外 ， 还 希望 
IPng 有 如 下 特性 : 

。 支持 实时 服务 。 

。 安全 性 支持 。 

。 自动 配置 ( 即 主机 自动 地 配置 自己 的 IP 地 址 和 域名 等 信息 的 能 力 )。 

。 增强 路 由 功能 ,包括 支持 移动 主机 。 

有 趣 的 是 ， 在 设计 IPv6 时 ，IPv4 不 具备 上 述 特性 中 的 许多 特性 ， 但 近年 来 IPv4 
对 这 些 特 性 的 支持 已 取得 了 进展 ， 而 且 两 种 协议 通常 使 用 类 似 的 技术 。 可 以 说 ,将 
IPv6 看 成 一 张 白 纸 的 自由 促进 了 IP 新 功能 的 设计 ， 并且 这 些 功能 继而 被 改装 成 IPv4 
的 功能 。 

除了 以 上 列 出 的 特性 外 ，IPng 的 男 一 个 无 可 非议 的 特性 是 从 当前 的 IP 版 本 (IPv4) 
到 新 版 本 必须 有 一 个 过 渡 计 划 。 因 为 因特网 变 得 如 此 之 大 并 且 没 有 中 央 控 制 ， 完 全 不 可 能 
有 这 样 一 个 “国旗 纪念 日 "， 让 每 个 人 都 在 这 一 天 关闭 主机 和 路 由 器 来 安装 新 版 的 IP。 因 
此 ， 可 能 有 一 个 很 长 的 过 渡 期 ， 有些 主机 和 路 由 器 运行 IPv4， 有 些 同 时 运行 IPv4 和 
IPv6 ， 而 另 一 些 只 运行 IPv6 。 

IETF 任命 一 个 名 为 IPng 理事 会 的 委员 会 来 收集 所 有 IPng 需求 ， 并 且 评 价 将 变 成 
IPng 协议 的 所 有 建议 。 这 个 委员 会 收 到 很 多 建议 ， 其 中 一 些 建议 与 另 一 些 建 议 合并 ， 最 
终 由 理事 会 选 出 一 个 建议 作为 IPng 的 基础 。 这 个 建议 叫 作 简 单 因特网 协议 扩充 (Simple 
Internet Protocol Plus, SIPP), SIPP 最 初 要 求 将 IP 地 址 扩大 一 倍 到 64 位 。 当 理事 会 选 
择 了 SIPP 时， 他 们 规定 了 几 种 改变 ， 其 中 一 项 是 将 地 址 再 扩大 一 倍 到 128 位 〈16 字 节 ) 。 
这 次 ,设置 版 本 号 为 6。 本 节 的 其 余部 分 将 描述 IPv6 的 一 些 主要 特性 。 至 撰写 本 书 时 ， 
IPv6 的 大 多 数 关键 规范 在 IETF 中 正 处 于 建议 或 草拟 标准 的 阶段 。 

2. 地 址 和 路 由 

首先 ， 与 32 位 的 IPv4 不 同 ，IPv6 提供 128 位 的 地 址 空间 。 因 此 ， 如 果 地 址 分 配 有 效 
性 能 达到 100%, YE IPv4 中 可 以 最 多 编 址 40 亿 个 节点 ， 而 IPv6 可 编 址 3. 4X1038 个 节点 。 
但 是 ， 正 如 我 们 所 看 到 的 ，100 儿 的 地 址 分 配 效率 是 不 可 能 的 。 在 其 他 编 址 方案 的 某 些 分 
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析 中 ， 如 法 国 和 美国 电话 网 络 以 及 IPv4 的 编 址 方案 的 分 析 ， 部 可 找到 一 些 地 址 分 配 效率 
的 经 验 数据 。 基 于 从 这 项 研究 得 出 的 最 翡 观 的 效率 估计 ， 预测 IPv6 地 址 空间 在 地 球 面 
的 每 平方 英尺 上 提供 1 500 多 个 地 址 ， 看 起 来 它 似乎 可 以 很 好 地 为 我 们 服务 ， 即 使 金星 上 
的 烤 面包 机 也 有 IP 地 址 。 

3. 地 址 空间 分 配 

















受益 于 IPv4 中 CIDR 的 使 用 ，IPv6 地 址 同样 表 4-1 IPv6 的 地 址 前 绥 分 配 
不 分 类 ,但 是 地 址 空间 仍然 基于 前 导 比 特 的 不 同 i mM g 
划分 方式 。 前 导 比特 说 明 IPv6 iR OES | Aa 
不 是 说 明 不 同 的 地 址 分 类 。 当 前 IPv6 的 地 址 前 绥 1111 1111 | “多 播 地 址 
分 配 如 表 4-1 ifm. 1111 1110 10 链 路 局 部 单 播 

这 种 地 址 空间 的 分 配 需要 一 些 讨论 。 首 先 ， 





IPv4 的 三 种 主要 地 址 类 CAL BAO) 的 全 部 功能 包含 在 “其 他 ”范围 内 。 我 们 很 快 会 看 
到 ， 全 局 单 播 地 址 很 像 无 类 的 IPv4 地 址 ， 只 是 长 了 很 多 ,在 此 我 们 主要 感 兴 趣 的 是 ， 这 
种 重要 的 地 址 形式 占据 IPy6 所 有 地 址 空间 的 99%. (在 撰写 本 书 时 . IPv6 单 播 地 址 的 分 
ACM 001 开头 的 块 开 始 ， 剩余 的 地 址 空间 大 约 占 87%， 保留 给 未 来 使 用 ,) 

多 播 地 址 空间 用 于 多 播 ， 因 此 与 IPv4 中 DD 类 地 址 的 作用 类 似 . 注意 ,多 播 地址 是 很 
容易 区 分 的 ， 它 们 开头 的 一 个 字 节 全 是 1。 我 们 将 在 4. 2 节 看 到 如 何 使 用 这 些 地 址 。 

链 路 局 部 使 用 地 址 的 思想 是 使 主机 构造 一 个 地 址 ， 能够 适用 于 它 所 连接 的 网 络 ， 而 不 
必 关 心 全 局 地 址 唯一 性 问题 。 我 们 下 面 将 看 到 ， 这 一 点 对 自动 配置 很 有 用 。 类 似 地 ， 站 点 
局 部 使 用 地 址 预定 为 允许 在 一 个 未 连 在 更 大 因特网 上 的 站 点 (如 专用 社团 网 ) 上 构造 有 效 
地 址 ， 并 且 不 需 考虑 全 局 地 址 唯一 性 问题 。 

在 全 局 单 播 地 址 空间 中 有 一 些 重要 的 特殊 类 型 的 地 址 。 可 以 通过 将 32 位 的 IPv4 地 址 
前 面 加 0 扩展 到 128 位 ,将 一 个 “兼容 IPv4 的 IPv6 地 址 ”分 配给 一 个 节点 。 一 个 只 能 理 
解 IPv4 的 节点 可 以 通过 对 IPv4 的 32 位 地 址 加 上 2 字 BRA 1 WMR. FER OO 直至 
扩展 到 128 位 ， 分 配 一 个 “映射 IPv4 的 IPv6 地 址 ”。 这 两 种 特殊 的 地 址 类 型 用 于 IPv4 到 
IPv6 的 转换 〈 关 于 本 主题 的 讨论 见 相关 主题 )。 


相关 主题 

IPv4 到 IPv6 的 过 渡 

从 IPv4 到 IPv6 过 渡 背 后 的 最 重要 思想 是 因特网 太 大 且 无 法 集中 管 所 以 不 可 能 有 
指定 的 “ 某 一 天 ”让 每 台 主 机 和 路 由 器 都 从 IPv4 升级 到 IJPv6。 因 此 ，IPv6 Ree 
的 方式 逐渐 部 署 : 只 理解 IPv4 的 主机 和 路 由 器 可 以 继续 运行 尽 可 能 长 的 时 间 。 理 想 情况 
下 ，IPv4 节点 应 该 能 和 其 他 的 IPv4 或 某 些 有 IPv6 兼容 能 力 的 节点 对 话 。 而 有 全，IPv6 = 
机 应 该 能 和 其 他 IPv6 节点 不 定期 地 对 话 ， 即 使 它们 之 间 的 某 些 基础 结构 只 支持 IPv4。 已 
定义 了 两 种 主要 机 制 帮 助 实现 这 种 过 渡 : 双 栈 操作 (dual-stackoperation) 和 隧道 技术 
(tunneling) 。 

双 栈 的 思想 非常 简单 ，IPv6 节点 既 运 行 IPv6 也 运行 IPv4， 并 且 使 用 Version (版 本 ) 
字段 来 决定 哪 一 个 栈 应 处 理 到 达 的 分 组 。 在 这 种 情况 下 ，IPv6 地 址 可 以 与 IPv4 地 址 无 关 ， 
或 者 可 以 是 本 节 前 面 描述 的 “映射 IPv4 的 IPv6 地 址 ”。 
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基本 隧道 技术 在 4.1 节 描述 过 ， 它 将 IP 分 组 作为 另 一 个 IP 分 组 的 有 效 载荷 pay- 
load) 进行 发 送 。 为 了 向 IPv6 过 渡 ， 隧 道 用 于 在 只 理解 IPv4 的 网 段 发 送 IPv6 PH, KB 
味 着 IPv6 分 组 被 封装 在 一 个 IPv4 的 首部 内 ， 首 部 中 有 隧道 端点 的 地 址 ， 穿 过 只 支持 IPv4 
的 网 段 ， 然 后 在 端点 解 去 封装 。 端 点 可 以 是 一 台 路 由 器 或 主机 ， 无 论 哪 种 情况 ， 它 必须 有 
支持 IPv6 的 能 力 以 处 理解 开封 装 后 的 IPv6 分 组 。 如 果 端 点 是 一 个 有 映射 IPv4 的 IPv6 地 
址 的 主机 ， 那 么 通过 从 IPv6 地 址 中 抽出 IPv4 地 址 ， 并 用 它 形 成 IPv4 首部 ， 就 可 以 自动 
地 使 用 隧道 技术 。 否 则 ， 隧 道 必须 进行 人 工 配置 。 在 这 种 情况 下 ， 封 装 节点 需要 知道 隧道 
另 一 端的 IPv4 地 址 ， 因 为 它 不 能 从 IPv6 首部 中 得 到 。 从 IPv6 的 角度 ， 隧 道 的 另 一 端 看 
起 来 像 是 一 个 正规 的 只 在 一 跳 跨度 之 外 的 IPv6 节点 ， 尽 管 在 隧道 的 两 个 端点 之 间 可 能 存 
在 IPv4 基础 设施 的 许多 跳 点 。 








4. 地 址 的 符号 表示 

和 使 用 IPv4 一 样 ， 书写 IPv6 地 址 时 要 用 到 一 些 特殊 的 符号 。 标 准 的 表示 方式 是 x: x: 
x:x:Xx:x:x:x， 其 中 每 个 “x” 都 是 一 个 16 位 的 地 址 段 的 16 进 制 表 示 。 例 如 

47CD;1234;4422; AC02:0022:1234:A456:0124 

任何 IP v6 地 址 均 可 用 这 种 符号 表示 。 由 于 IPv6 地 址 中 有 一 些 特殊 类 型 ， 因 此 在 特定 
情况 下 需要 一 些 特殊 的 符号 表示 。 例 如 ， 有 多 个 连续 0 的 地 址 可 以 表示 为 删 掉 所 有 这 些 0 
的 紧凑 形式 。 因 此 

47CD:0000:0000:0000:0000:0000:A456:0124 
可 以 写成 
47CD::A456:0124 

显然 ， 为 了 避免 二 义 性 ， 这 种 缩写 形式 只 可 用 于 一 个 地 址 中 连续 多 个 0 的 集合 。 

由 于 两 类 包括 嵌入 IPv4 地 址 的 IPv6 地 址 有 自己 的 特殊 符号 ， 使 得 提取 IPv4 地 址 更 
为 容易 。 例 如 ， 一 台 主 机 的 IPv4 地 址 是 128. 96. 33. 81， 那 么 其 带 IPv4 映射 的 IPv6 地 址 
可 以 写成 

::FFFF.128. 96. 33. 81 

就 是 说 ,后 32 位 按 IPv4 的 符号 表示 书写 ， 而 不 是 以 冒号 相隔 的 一 对 16 进 制 数 。 注 
意 最 前 面 的 双 冒 号 表示 前 导 0。 

5. 全 局 单 播 地 址 

至 此 ， 编 址 最 重要 的 事情 是 IPv6 必须 提供 普通 的 传统 单 播 编 址 。 为 做 到 这 一 点 ， 它 
必须 支持 新 主机 在 因特网 中 的 快速 增加 ， 并 在 因特网 中 的 物理 网 络 数 增长 时 ， 人 允许 按 可 扩 
展 的 方式 进行 路 由 。 因 此 ，IPv6 的 核心 是 单 播 地 址 分 配 计划 ， 即 确定 那些 前 缀 为 001 的 地 
址 如 何 分 配给 服务 提供 商 、 自 治 系 统 、 网 络 、 主 机 和 路 由 器 。 

事实 上 ， 所 提出 的 IPv6 单 播 地 址 分 配 计划 非常 类 似 于 IPv4 中 CIDR 的 地 址 分 配 计划 。 
为 了 明白 它 如 何 工作 以 及 如 何 提供 可 扩展 性 ， 我 们 先 定义 一 些 新 的 术语 。 我 们 可 以 将 一 个 
非 中 转 AS 〈 即 桩 或 多 连接 AS) 看 作 一 个 用 户 〈subscriber) ， 并 且 可 将 一 个 中 转 AS 看 作 
一 个 提供 商 (provider)。 而 且 ， 我 们 可 进一步 将 提供 商 划 分 为 直接 (direct) 和 非 直接 
(indinect) 两 种 。 前 者 直接 与 用 户 相 连 。 后 者 主要 连接 其 他 提供 商 ， 并 不 直接 与 用 户 相 
连 ， 通 常 叫 作 主 干 网 (backbone network), 





有 了 这 些 定 义 ， ema le en engy od Me er 
困难 在 于 ， 在 没有 发 明基 于 层次 性 进行 工作 的 新 机 制 的 情况 下 ， 如何 使 用 这 种 层次 性 ， 就 
(EGP 中 发 生 的 那样 。 例 如 ， 当 一 个 用 户 连 接 到 主干 网 上 ， 一 个 直接 提供 商 开 始 连 
接 其 他 多 个 提供 商 时 ， 直 接 的 和 非 直 接 的 提供 商 之 间 的 区 别 就 会 变 得 模糊 ，。 

和 CIDR 一 样 ，IPv6 地 址 分 配 计 划 的 目标 是 提供 路 由 信息 的 聚合 以 减少 域内 路 由 人 融 的 
负担 。 男 外 ， 关 键 思想 是 使 用 地 址 前 级 ( 即 在 地 址 高 端的 一 系列 连续 的 比特 ) 来 聚合 到 大 
量 网 络 甚至 是 大 量 AS 的 可 达 性 信息 。 做 到 这 一 点 的 主要 方法 是 为 直接 提供 商 分 配 一 个 地 
址 前 级 ， 然 后 给 它 的 用 户 分 配 一 个 以 此 前 级 开始 而 比 之 更 长 的 前 级 。 这 正 是 我 们 在 图 3- 22 
中 看 到 的 。 这 样 ， 一 个 提供 商 可 以 向 它 的 所 有 用 户 通 知 一 个 前 级 。 

当然 ， 缺 点 是 当 站 点 想 要 改变 提供 商 时 ， 需要 得 到 一 个 新 的 地 址 前 级 ， 并 重新 对 站 点 
内 的 节点 编号 。 这 是 一 项 很 繁重 的 任务 ， 足 以 阻止 多 数 人 不 断 更 换 提 供 商 。 因 此 ， 人们 正 
在 研究 其 他 编 址 方案 (如 地 理 编 址 )， 其 中 站 点 的 地 址 是 其 位 置 的 艺 数 而 不 取决 于 它 连 接 
的 提供 商 。 然 而 现在 基于 提供 商 的 编 址 对 于 有 效 地 完成 路 由 来 说 是 必需 的 . 

注意 ， 虽 然 IPv6 的 地 址 分 配 本 质 上 等 价 于 引入 CIDR 的 IPv4 地 址 分 配方 案 . 但 是 
IPv6 有 一 个 显著 的 优点 ， 即 不 需要 让 大 量 前 期 已 分 配 的 地 址 适应 此 方案 。 

问题 是 在 层次 结构 中 其 他 层 进 行 层次 聚合 是 否 有 意义 ?例如 .所 有 提供 商都 应 该 从 所 
连接 的 主干 网 的 前 级 中 获取 它们 的 地 址 前 级 吗 ” 如 果 大 多 me 主干 网 上 .， 








这 可 能 就 变 得 无 意义 了 。 而 且 ， 由 于 提供 商 数 比 站 点 数 少 得 多 , 在 这 层 中 进行 聚合 的 好 处 
就 更 小 了 。 


进行 聚合 的 意义 在 于 国界 或 洲 界 。 各 大 洲 的 边界 形成 因特网 拓扑 中 的 自然 划分 ， 例 
如 ， 如 果 欧 洲 的 地 址 都 有 一 个 共同 的 前 级 ， 那 么 就 可 以 完成 大 量 的 聚合 .因此 其 他 洲 的 大 
多 数 路 由 器 只 需 一 条 路 由 表 记 录 来 表示 所 有 带 欧洲 前 级 的 网 络 ， 欧洲 的 提供 商 将 会 选择 以 

欧洲 前 级 开始 的 前 级 。 使 用 这 种 方案 ， 一 个 IPv6 地 址 看 起 来 可 能 如 图 4- 11 所 示 。Regis- 

tryID (注册 号 ) 可 以 是 一 个 分 配给 欧洲 地 址 注册 的 标识 符 ， 其 他 洲 或 国家 也 分 配 不 同 的 
ID。 注 意 ， 这 种 情况 下 前 级 将 有 不 同 的 长 度 。 例 如 ， 客 户 较 少 的 提供 商 的 前 级 会 比 客 户 较 
多 的 提供 商 的 前 级 长 (并 因此 有 较 少 的 总 体 可 用 地 址 空间 )。 
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joo 注册 号 提供 商号 订户 号 | 子 网 号 接口 号 


i, S 


图 4-11 基于 提供 商 的 TP v6 单 播 地 址 


当 一 个 用 户 连接 在 多 个 提供 商 上 时 ， 人 情况 较 难 处 理 。 这 个 用 户 应 该 为 其 站 点 使 用 哪个 

前 级? 此 问题 没有 完美 的 解决 办 法 。 例 如 ， ae ala XA YE., 

如 果 用 户 从 X 得 到 前 级 ,那么 Y 不 得 不 通知 一 个 和 它 的 其 他 订户 无 关 的 前 级 ， 因 而 无 法 

聚合 。 如 果 用 户 以 X i E AS 的 编号 而 以 Y 的 前 级 为 男 一 部 分 AS 的 编号 ， 那 

么 当 一 个 提供 商 的 连接 切断 时 ， 就 要 冒 一 半 站 点 不 可 达 的 危险 。 当 X 和 Y 有 和 多 个 共同 用 

Pit. 效果 较 好 的 一 种 办 法 是 让 它们 之 间 有 三 种 前 级 : 一 种 用 于 只 属于 XX 的 用 户 ， 一 种 用 
只 属于 YY 的 用 户 ， 另 一 种 用 于 既是 X 也 是 Y 的 用 户 的 站 点 。 
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6. 分 组 格式 

尽管 IPv6 在 多 个 方面 扩展 了 IPv4， 但 它 的 首部 格式 实际 上 更 为 简单 。 这 种 简单 性 是 
由 于 从 协议 中 删除 了 不 必要 的 功能 。 图 4-12 给 出 了 IPv6 的 分 组 首部 。( 为 了 与 IPv4 比较 ， 
请 对 照 图 3-16 所 示 的 首部 格式 。) 

与 很 多 首部 一 样 ， 此 首部 格式 也 以 Version (版 本 ) 字段 开始 ， 因 为 是 IPv6， 所 以 设 





为 6。IPv6 和 IPv4 的 Version 字段 都 在 首部 的 o 4 12 16 24 31 
开始 位 置 ， 使 得 首部 处 理 软件 能 够 立即 决定 要 | 版本， 通信 类 别 | 流标 记 
寻找 哪 种 首部 格式 。TafficClass (通信 类 别 ) ， 有效 共 载 长 度 。 “下 一 首部 | BAER 


和 FlowLabel (流标 签 ) 字段 都 与 服务 质量 间 ， WH 
题 有 关 ， 将 在 6. 5 节 中 讨论 。 a se 

PayloadLen (有 效 载荷 长 度 ) 字段 给 出 不 | 
包括 IPv6 首部 在 内 的 分 组 的 长 度 ， 按 字 节 计 ， 
数 。NextHeader (下 一 个 首部 ) 字段 明确 地 代 ， 
E IPv4 中 的 IP 选项 和 Protocol (协议 ) 字段 。 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
如 果 需 要 选项 ， 那 么 它们 被 携带 在 IP 首部 之 后 一 一 
的 一 个 或 多 个 特殊 首部 中 ， 这 由 NextHeader [Wi 
字段 中 的 值 指出 。 如 果 没 有 特殊 首部 ，Next- 一 人 ca sa 
Header 字段 是 识别 运行 在 IP 之 上 的 更 高 层 协 | 
议 Ct TCP 或 UDP) 的 多 路 分 解密 铀 ， 即 它 
和 IPv4 的 Protocol 字段 的 作用 相同 。 同 时 ， 分 
段 被 作为 一 个 选项 首部 来 处 理 ， 即 IPv4 中 有 关于 分 段 的 字段 不 包括 在 IPv6 首部 中 。Hop- 
Limit ( 跳 数 上 限 ) 字段 也 就 是 IPv4 的 TTL (生存 期 ) 字段 ， 重 新 命名 是 为 了 反映 它 的 实 
际 使 用 方式 ， 

最 后 ， 首 部 的 大 部 分 被 源 地 址 和 目的 地 址 所 占据 ， 各 为 16 字 节 (128 位 ) 长。 这 样 ， 
IPv6 首部 长 度 总 是 40 字 节 。 考 虑 一 下 ，IPv6 地 址 的 长 度 是 IPv4 地 址 长 度 的 4 倍 ， 而 首 
部 的 差异 尤为 明显 ，IPv4 的 首部 若 没 有 选项 只 有 20 字 节 长 。 

IPv6 处 理 选项 的 方法 比 IPv4 有 很 大 改进 。 在 IPv4 中 ， 如 果 存 在 选项 ， 每 台 路 由 器 都 
得 解析 整个 选项 字段 ， 看 选项 是 否 相 关 。 这 是 因为 选项 作为 〈type，length，value》 ( (类 
H, KE, 1) 的 无 序 集 合 隐藏 在 IP 首部 的 末尾 。 相 比 之 下 ， 在 IPv6 中 ， 如 果 选 项 存 
在 的 话 ，IPv6 将 它 看 作 是 必须 以 特定 顺序 出 现 的 扩展 首部 (extension header)。 这 就 意味 
着 每 台 路 由 器 能 够 很 快 地 确定 是 否 有 选项 与 它 相 关 ， 在 多 数 情 况 下 它们 是 不 相关 的 。 通 
常 ， 这 可 以 从 NextHeader 字段 上 判断 出 来 。 这 样 的 结果 是 ，IPv6 中 选项 处 理 的 效率 较 
高 ， 这 是 路 由 颖 性 能 的 一 个 重要 因素 。 另 外 ,将 选项 作为 扩展 首部 这 种 新 格式 意味 着 它们 
可 以 为 任意 长 度 ， 而 在 IPv4 中 则 被 限制 为 最 多 44 字 节 。 下 面 我 们 来 看 如 何 使 用 其 中 一 些 
选项 。 

每 个 选项 有 它 自 己 的 扩展 首部 类 型 。 每 个 扩展 首部 的 类 型 由 前 面 首部 中 的 NextHead- 
er 字段 值 来 标识 ， 并 且 每 个 扩展 首部 也 包含 一 个 NextHeader 字段 来 标识 跟 在 它 后 面 的 首 
部 。 最 后 一 个 扩展 首部 后 面 跟着 一 个 传输 层 首 部 (如 TCP)， 这 时 NextHeader 字段 的 值 
与 IPv4 首部 中 Protocol 字段 的 值 相同 。 因 此 ，NextHeader 字段 有 双重 职责 ; 它 既 可 以 标 





图 4-12 IPv6 分 组 首部 
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识 随后 的 扩展 首部 类 型 ， 又 可 在 最 后 的 扩展 首部 中 作为 多 路 分 解 键 标 识 运 行 在 IPv6 之 上 上 
的 更 高 层 协 议 。 


考虑 如 图 4-13 所 示 的 分 片 首部 示例 。 此 首部 提供 的 功能 类 似 于 3. 2. 2 节 描 述 的 IPv4 
首部 中 的 分 片 字段 ,但 是 它 只 在 需要 拆 分 时 出 现 。 假 设 它 是 唯一 出 现 的 扩展 首部 ， 邢 么 
IPv6 首部 的 NextHeader 字段 值 将 是 44， 这 个 值 被 分 配 用 来 表示 分 片 首部 。 分 片 首 部 的 
NextHeader 字段 自身 包含 一 个 描述 其 后 跟随 首部 的 值 。 此 外 假设 不 存在 其 他 扩展 首部 ， 
那么 下 一 个 首部 可 能 就 是 TCP 首部 ， 这 将 导致 NextHeader 字段 的 值 为 6， 就 像 Protocol 
字段 在 IPv4 中 那样 。 如 果 分 片 首 部 后 面 还 跟着 一 个 首部 (比如 认证 首部 )， 那 么 分 片 首部 
的 NextHeader 字段 值 将 为 51。 


0 8 16 29 3l 

| 下 一 个 首部 | 保留 | 偏 移 量 ，RES | M 

H we we SESE eS Cn OTC: See TE ae 
标识 


图 4-13 IPv6 的 分 片 扩展 首部 








— 


3 





7. 自动 配置 

尽管 因特网 以 惊人 的 速度 增长 ， 但 阻碍 这 项 技术 被 更 快 接受 的 一 个 因素 是 连 人 因特网 
通常 需要 一 定 的 系统 管理 专业 知识 。 特 别 是 ， 连 在 因特网 上 的 每 台 主 机 至 少 都 需要 配置 一 
些 信 息 ， 如 合法 的 IP 地址、 其 所 连接 链 路 的 子 网 掩 码 以 及 名 字 服 务 絮 的 地 址 。 这 样 ， 就 
不 可 能 将 一 台新 开 箱 的 计算 机 不 预先 配置 就 连 到 因特网 上 。 因 此 ,IPv6 的 目的 之 一 是 提 
供 自动 配置 支持 ， 有 了 时 叫 作 即 插 即 用 (plug-and-play) 操作 。 

如 我 们 在 3. 2. 7 节 所 看 到 的 ，IPv4 也 可 以 进行 自动 配置 , 但 要 看 是 否 存在 一 个 能 
将 地 址 和 其 他 配置 信息 分 发 到 DHCP 客户 端的 服务 器 。IPv6 中 更 长 的 地 址 格式 有 助 
于 提供 一 种 有 用 的 新 的 自动 配置 形式 ， 叫 作 无 状态 (stateless) 上 自动 配置 ， 它 不 需要 
服务 器 。 

回忆 一 下 ，IPv6 的 单 播 地 址 是 分 层 的 ， 最 低 有 效 部 分 是 接口 号 。 这 样 ， 我 们 可 以 将 
自动 配置 问题 划分 为 两 部 分 : 

1) 获取 主机 所 连接 的 链 路 上 具有 唯一 性 的 接口 号 。 

2) 获取 此 子 网 的 正确 地 址 前 级 。 

第 一 部 分 比较 容易 实现 ， 因 为 一 条 链 路 上 每 台 主 机 必须 有 唯一 的 链 路 层 地 址 。 例 如 ， 
以 太 网 上 的 所 有 主机 有 一 个 唯一 的 48 位 以 太 网 地 址 。 它 可 以 通过 加 上 表 4-1 中 适当 的 前 
9% (1111 1110 10)， 并 在 后 面 补 上 足够 的 0 将 其 变 为 一 个 128 位 的 合法 链 路 局 部 使 用 地 
址 。 对 某 些 设备 来 说 ， 例 如 打印 机 或 一 个 小 型 无 路 由 器 且 不 与 其 他 任何 网 络 相 连 的 网 络 中 
的 主机 ， 这 个 地 址 可 能 就 足够 了 。 那 些 需 要 一 个 全 局 合法 地 址 的 设备 依赖 同一 条 链 路 上 的 
路 由 器 定期 向 链 路 通知 适当 的 前 级 。 显 然 ， 这 需要 路 由 器 配置 有 正确 的 地 址 前 级 ,并 且 此 
前 级 是 按照 保证 在 末尾 有 足够 的 空间 (如 48 位 ) 来 添加 一 个 合适 的 链 路 层 地 址 的 方法 选 
择 的 。 

把 48 位 长 的 链 路 层 地 址 嵌入 IPv6 地 址 的 能 力 ， 是 选择 如 此 长 的 地 址 长 度 的 原因 之 
一 。128 位 不 仅 允 许 嵌 入， 而 且 为 我 们 上 面 讨论 的 多 层 编 址 留 有 足够 的 空间 。 
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相关 主题 

网 络 地 址 转换 

尽管 IPv6 的 引入 是 出 于 对 IP 地址 使 用 的 增长 将 导致 地 址 空间 耗 尽 的 顾虑 ， 但 另 一 
种 技术 作为 节省 JP 地址 空间 的 一 种 方法 正在 流行 起 来 。 这 种 技术 是 网 络 地 址 转换 
(Network Address Translation，NAT)， 它 的 广泛 使 用 将 可 能 在 很 大 程度 上 延缓 部 署 
IPv6 的 需求 。 人 们 通常 认为 NAT 是 “结构 不 规范 的 >”， 但 是 它 也 是 网 络 发 展 中 不 容 忽 
视 的 事物 。 

NAT 的 基本 思想 是 因特网 上 所 有 可 能 彼此 通信 的 主机 不 需要 全 球 唯 一 的 地 址 。 一 

主机 可 以 设置 一 个 无 需 全 球 唯一 的 “私有 地 址 *， PASET 定 的 范围 内 唯一 即 可 ， 例 
如 在 主机 所 在 的 公司 网 络 内 唯一 。A 类 网 络 号 10 通常 用 于 此 目的 ， 因 为 这 个 网 络 号 曾 分 
配给 APPANET 网 ， 所 以 不 再 作为 全 球 唯 一 的 地 址 使 用 。 只 要 一 台 主 机 仅 与 公司 网 络 内 
的 其 他 主机 进行 通信 ， 局 部 唯一 地 址 就 足够 了 。 如 果 它 着 望 与 公司 网 络 以 外 的 主机 进行 通 
Z. Wl) Ait NAT & (box)， 这 种 设备 能 将 主机 使 用 的 私有 地 址 转换 为 分 配给 NAT 的 
某 个 全 球 唯一 地 址 。 公 司 内 一 小 部 分 主机 可 能 同时 需要 NAT 盒 的 服务 ， 因 此 NAT 盒 需 
要 一 个 小 的 全 球 唯一 地 址 池 ， 其 容量 远 比 公司 内 每 台 主 机 都 需要 一 个 全 球 唯一 地 址 的 数 
目 小 。 

Auk, 我 们 可 以 想象 一 个 NAT 盒 接收 来 自 于 公司 内 部 主机 的 IP 分 组 ， 并 将 IP 源 地 
址 从 私有 地 址 (如 10.0.1.5) 转换 为 全 球 唯一 地 址 (如 171.69.210.246)。 当 有 来 自 于 远 
程 主机 的 目的 地 址 为 171. 69.210.246 的 分 组 到 达 时 ，NAT 盒 将 此 目的 地 址 转换 为 
10.0.1.5， 并 把 分 组 转发 到 主机 。 

NAT 的 主要 缺点 是 违反 了 IP 服务 模型 的 一 个 关键 假设 一 一 所 有 节点 都 有 全 球 唯一 地 
址 。 事 实证 明 很 多 应 用 和 协议 都 依赖 这 个 假设 。 特 别 是 ， 很 多 运行 在 IJP 上 的 协议 (如 
FTP 之 类 的 应 用 协议 ) 在 消息 中 携带 IP 地 址 。 如 果 高 层 协 议 工 作 正 常 ， ee 
由 NAT 盒 来 转换 ， 因 此 NAT 盒 就 变 得 比 简单 的 IP 首部 翻译 器 更 复杂 还 要 求 它 能 
理解 越 来 越 多 的 高 层 协 议 ， 因 此 又 产生 了 部 署 新 应 用 的 障碍 。 

更 严重 的 问题 是 ，NAT 使 得 外 部 设备 很 难 向 NAT 中 的 私有 设备 发 起 连接 。 由 于 
NAT 设备 缺少 映射 机 制 ， 因 此 没有 公共 地 址 可 供 连接 请 求 发 送 。 这 种 情况 使 得 IP 语音 等 
应 用 的 部 署 更 为 复杂 。 

几乎 可 以 肯定 地 说 : 如 果 不 使 用 NAT， 网 络 的 情况 会 更 好 ， 但 是 NAT 看 起 来 似乎 
不 可 能 消失 。IPv6 的 广泛 部 署 可 能 会 改善 这 一 状况 ， 但 现在 的 NAT 因 为 其 他 因素 ， 其 
流行 范围 超越 了 最 初 的 设计 。 例 如 ， 如 果 整 个 因特网 具有 (HAW) IP 地 址 ， 且 和 提供 
商 的 地 址 空间 无 关 ， 那 么 就 可 以 很 轻易 地 更 换 服 务 提供 商 。 然 而 ，NAT 盒 并 不 是 一 个 
针对 安全 威胁 的 真正 的 解决 方案 ， 将 地 址 放 在 NATI 盒 中 并 不 能 表明 其 具有 抵抗 简单 攻 
击 的 保护 等 级 。 随 着 未 来 IPv6 部 署 步伐 的 加 快 ， 看 看 NAT 如 何 发 展 将 会 是 非常 有 趣 
的 事 。 








8. 高 级 路 由 能 力 
IPv6 的 男 一 个 扩展 首部 是 路 由 首部 。 如 果 没 有 这 个 首部 ，IPv6 的 路 由 与 在 CIDR 下 
IPv4 的 路 由 没有 多 大 区 别 。 路 由 首部 包括 一 个 IPv6 地 址 表 ， 描 述 分 组 到 达 目 标 途 中 所 经 
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过 的 节点 或 拓扑 区 域 。 例 如 ， 一 个 拓扑 区 域 可 以 是 一 个 主干 网 提供 商 网 络 。 在 基于 分 组 接 
分 组 的 传送 机 制 中 ， 实 现 提 供 商 选择 的 一 种 方法 是 指定 分 组 必须 经 过 该 网 络 。 这 样 ， 一 台 
主机 可 以 让 一 些 分 组 经 过 一 个 便宜 的 提供 商 ， 一 些 分 组 经 过 提供 高 可 靠 性 的 提供 商 ， 还 有 
一 些 分 组 经 过 主机 认为 能 提供 安全 性 的 提供 商 。 

为 了 提供 指定 拓扑 实体 而 不 是 单个 节点 的 能 力 、IPv6 定义 了 一 个 任 播 (anycast) 地 
址 。 一 个 任 播 地 址 被 分 配给 一 组 接口 ， 发 往 这 个 地 址 的 分 组 将 到 达 其 中 “最 近 的 ”一 个 接 
口 ， 哪 个 最 近 由 路 由 协议 来 决定 。 例 如 ， 可 以 给 主干 网 提供 商 的 所 有 路 由 崔 分 配 一 个 任 播 
地 址 ， 在 路 由 首部 中 将 使 用 它 。 

我 们 也 希望 任 播 地 址 和 路 由 首部 能 够 用 于 提供 对 移动 主机 的 高 级 路 由 支持 。 提供 这 项 
支持 的 详细 机 制 还 在 制定 过 程 中 。 

9. 其 他 特性 

正如 在 本 节 一 开始 所 提 到 的 ， 开 发 IPv6 的 基本 动机 是 文 持 因 特 网 的 持续 增长 。 然 而 ， 
一 旦 IP 首部 不 得 不 因 地 址 而 变化 ， 就 到 了 我 们 做 更 多 改变 的 时 候 ， 包 括 我 们 刚才 描述 的 
自动 配置 和 源 定 向 路 由 。IPv6 包含 几 个 附加 特性 ， 大 部 分 将 在 本 书 的 其 他 章节 介绍 . 
4. 4.2 节 讨 论 移动 性 ， 网 络 安全 是 第 8 章 的 主题 ,为 因特网 提出 的 一 种 新 服务 模型 在 6.5 
节 描 述 。 值 得 注意 的 是 对 于 上 述 方面 ，IPv4 和 IPv6 的 能 力 几 乎 没有 什么 本 质 区 别 ， 因 此 
IPv6 的 主要 驱动 力 仍 然 是 满足 更 长 地 址 的 需求 。 


4.2 多 播 

正如 我 们 在 第 2 章 中 看 到 的 ， 像 以 太 网 这 样 的 多 点 访问 网 络 用 硬件 实现 多 播 。 然而， 
许多 应 用 需要 在 互联 网 上 具有 一 种 广泛 的 多 播 能 力 。 比 如 ， 当 一 个 电台 通过 因特网 广播 
时 ， 同 样 的 数据 必须 被 发 送 到 有 用 户 打开 收音 机 并 调 到 这 个 台 的 所 有 主机 上 。 在 这 个 例子 
里 ， 连 接 方式 是 一 到 多 。 其 他 一 到 多 的 应 用 包括 传输 同一 段 新 闻 、 实 时 股票 价格 以 及 软件 
升级 给 多 台 主 机 等 。 还 有 很 多 应 用 连接 模式 是 多 对 多 ， 比 如 多 媒体 远程 会 议 、 在 线 多 用 户 
游戏 以 及 分 布 式 仿真 。 在 这 些 示 例 中 ,一 个 组 的 成 员 从 多 个 发 送 者 那里 得 到 信息 ， 基 本 上 
是 每 个 发 送 者 那里 。 对 任 一 个 发 送 者 来 说 ， 它 们 都 能 收 到 同样 的 信息 。 

在 正常 的 网 络 连接 中 ， 每 个 分 组 必须 包含 地 址 ， 并 被 发 送 到 一 个 单独 的 主机 ， 因 此 不 
能 很 好 地 满足 每 一 个 应 用 程序 。 如 果 一 个 应 用 程序 可 以 将 数据 发 送 到 一 个 组 ， 那 么 它 将 发 
送 独立 的 具有 认证 数据 的 分 组 给 组 的 每 个 成 员 。 这 些 宛 余 流量 占用 了 比 必需 流量 更 大 的 吾 
宽 。 而 且 ， 元 余 流 量 并 非 均匀 分 布 ， 而 是 围绕 发 送 主机 ， 并 可 能 轻易 超过 发 送 主机 及 附近 
网 络 和 路 由 器 的 通信 能 力 。 

为 了 更 好 地 支持 多 对 多 和 一 对 多 的 连接 ，IP 提供 了 一 种 IP 级 模拟 多 播 用 于 多 点 访问 
网 络 ， 如 第 2 章 中 提 到 的 以 太 网 。 现 在 我 们 介绍 IP 多 播 的 概念 ， 同 时 也 需要 用 一 个 术语 
来 描述 之 前 讨论 的 传统 一 对 一 IP 服务 ， 这 种 服务 称 为 单 播 (unicast)。 

基本 的 IP 多 播 模 型 是 基于 多 播 组 (group) 的 多 对 多 模型 ， 每 个 组 都 有 自己 的 IP 多 
播 地 址 (multicast address) 。 组 里 的 主机 收 到 任何 的 分 组 拷贝 都 会 发 送 到 组 的 多 播 地 址 。 
一 台 主 机 可 以 在 多 个 组 里 ， 利 用 下 面 将 要 讨论 的 协议 也 可 以 通过 局 部 路 由 器 自由 地 加 入 或 
者 离开 组 。 因 此 ， 如 果 我 们 将 单 播 地 址 关联 于 一 个 节点 或 者 一 个 界面 ， 那 么 多 播 地 址 就 关 
联 于 一 个 抽象 的 组 ， 组 的 成 员 随 时 间 而 变化 。 而 且 ， 原 始 多 播 服务 模型 允许 任何 主机 向 组 
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发 送 多 播 流 量 ， 主 机 没 必 要 成 为 一 个 组 的 成 员 , 但 可 能 有 任意 数量 的 发 送 者 加 入 到 一 个 已 
知 的 组 。 

利用 IP 多 播发 送 认 证 分 组 到 组 内 的 每 个 成 员 时 ， 主 机 发 送 一 个 分 组 的 单个 拷贝 给 组 
的 多 播 地 址 。 发 送 主机 不 需要 知道 各 个 组 成 员 的 单 播 IP 地 址 ， 因 为 正如 我 们 知道 的 ， 这 
些 知识 存在 于 互联 网 上 的 路 由 器 中 。 同 样 ， 发 送 主机 不 需要 发 送 多 个 分 组 拷贝 ， 因 为 路 由 
器 无 论 何 时 都 会 在 需要 的 时 候 将 分 组 转发 给 多 个 链接 。 相 比 于 使 用 单 播 IP 传送 相同 的 分 
组 给 多 个 接收 者 ，IP 多 播 更 可 测 ， 因 为 它 消除 了 一 些 需要 在 同一 条 链 路 上 发 送 多 次 的 元 
余 流量 ,特别 是 靠近 发 送 主机 的 链 路 。 

IP 的 原始 多 对 多 多 播 已 经 增强 为 可 支持 一 对 多 的 多 播 形式 。 在 一 对 多 多 播 模型 中 ， 
即 特定 源 多 播 (SSM) ， 接 收 主机 指定 一 个 多 播 组 和 特定 发 送 主 机 。 接 收 主机 仅 将 从 特定 
主机 收 到 的 多 播 地 址 发 送 给 特定 的 组 。 许 多 因特网 多 播 应 用 〈 如 无 线 电 广播 ) 适合 SSM 
模式 。 为 了 与 SSM 对 比 ，IP 原始 多 对 多 模型 有 时 被 称 为 任意 源 多 播 CASM). 

主机 通过 使 用 特定 协议 与 本 地 路 由 器 通信 ， 向 局 部 路 由 器 发 送 加 入 或 退出 多 播 组 的 信 
号 。 在 IPv4 中 ， 该 协议 是 因特网 组 管理 协议 (IGMP); 在 IPv6 中 ,， 它 是 多 播 侦 听 发 现 
(MLD)。 路 由 器 有 责任 使 多 播 行为 相对 主机 来 说 是 正确 的 。 因 为 一 台 主 机 可 能 退出 多 播 
组 失败 (如 遇 到 冲突 或 其 他 错误 时 )， 路 由 器 定期 选 出 局 域 网 以 确定 哪些 组 仍然 对 所 关联 
的 主机 有 兴趣 。 


4.2.1 多 播 地 址 


IP 地 址 将 一 个 子 空间 保留 给 多 播 地 址 。 在 IPv4 中 ， 这 些 地 址 被 分 配 在 D 类 地 址 空间 
H, Æ IPv6 中 也 有 一 部 分 地 址 空间 ( 见 表 4-1) 是 保留 给 多 播 组 地 址 的 。 一 些 多 播 区 域 中 
的 子 空间 是 留 给 域内 多 播 的 ， 因 此 ， 它 们 可 以 由 不 同 的 域 单独 重用 。 

因此 ， 当 我 们 忽略 为 所 有 多 播 地 址 共享 的 前 缀 时 ，IPv4 中 有 28 位 可 能 的 多 播 地 址 。 
这 带 来 了 一 个 问题 ， 即 何 时 可 以 在 局 域 网 里 使 用 硬件 多 播 。 就 拿 以 太 网 来 说 ， 当 我 们 忽 
略 共享 前 缀 时 ， 以 太 网 多 播 地 址 只 有 23 位 。 换 句 话 说 ， 要 利用 以 太 网 多 播 ， 必 须 将 28 
位 的 IP 多 播 地 址 映射 到 23 位 以 太 网 多 播 地 址 。 实 施 的 时 候 采 用 了 低 23 位 的 IP 多 播 地 
址 作为 其 以 太 网 多 播 地 址 ， 而 忽略 了 高 5 位 。 因 此 ，32 位 (25) IP 地 址 就 映射 到 了 以 
太 网 地 址 。 

当 以 太 网 的 一 台 主 机 上 加 入 一 个 耻 多 播 组 时 ， 它 需要 配置 以 太 网 接口 以 接收 由 相 
应 的 以 太 网 多 播 地 址 发 来 的 分 组 。 不幸 的 是 ， 如 果 主 机 被 路 由 到 那个 以 太 网 ， 将 导致 接 
收 主机 不 仅 接收 了 其 想得到 的 多 播 流 量 ， 而 且 也 会 收 到 映射 到 相同 的 以 太 网 地 址 的 其 他 
31 个 IP 多 播 组 的 流量 。 因 此 ， 接 收 主机 必须 检查 IP 报头 的 所 有 多 播 分 组 ， 以 确定 该 分 
组 是 否 真正 属于 那个 多 播 组 。 总 之 ， 不 匹配 的 多 播 地 址 大 小 意味 着 即便 主机 对 流量 要 到 
达 的 多 播 组 没有 兴趣 ， 多 播 流量 也 会 对 该 主机 产生 负担 。 幸 运 的 是 ， 在 某 些 交换 网 (如 
交换 式 以 太 网 )， 利 用 路 由 需 对 不 需要 的 分 组 进行 识别 并 抛弃 的 策略 ， 这 个 问题 就 可 以 
得 到 缓解 。 

一 个 令 人 困惑 的 问题 是 如 何 使 发 送 方 和 接收 方 学 习 将 哪些 多 播 地 址 放 在 首位 。 这 通常 
知 要 一 些 超 出 现 有 网 络 约束 的 手段 ， 有 一 些 相当 复杂 的 工具 可 在 因特网 上 通知 组 地 址 。 其 
中 一 个 例子 是 sdr， 将 在 9. 2. 1 节 讨 论 。 
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4.2.2 多 播 路 由 (DVMRP, PIM, MSDP) 


对 于 任何 IP 地 址 而 言 ， 路 由 器 的 单 播 转发 表 显 示 了 哪些 连接 可 以 用 来 转发 单 播 分 组 . 
为 了 支持 多 播 ， 路 由 器 必须 有 额外 的 多 播 转发 表 ， 基 于 多 播 地 址 来 显示 哪些 (一般 都 多 于 
一 个 ) 连接 可 以 用 来 转发 多 播 分 组 〈 如 果 要 通过 多 个 连接 来 转发 的 话 ， 路 由 器 将 复制 这 些 
分 组 ) 。 因 此 ， 如 果 单 播 转 发 表 指明 了 一 套路 径 ， 那 么 多 播 转发 表 就 指明 了 一 套 树 结 构 : 
多 播 分 发 树 (multicast distribution tree)。 而 且 ， 为 支持 特定 源 多 播 (事实 上 的 结果 是 ， 
对 于 任意 源 多 播 的 某 些 类 型 )， 多 播 转 发 表 必 须根 据 多 播 地 址 和 ( 单 播 ) 源 IP 地 址 的 组 
合 ， 来 确定 哪些 链接 可 用 ， 并且 重新 定义 一 个 树 集合 。 

多 播 路 由 是 一 个 多 播 分 发 树 的 决策 过 程 ， 更 具体 地 说 ， 是 一 个 多 播 转发 表 的 建立 过 
程 。 就 像 单 播 路 由 ， 一 个 组 播 路 由 协议 是 不 够 的 。 它 还 必须 在 网 络 发 展 的 时 候 控 制 合 理 的 
规模 ， 而 且 必 须 适 应 不 同 路 由 域 的 自治 。 

1. DVMRP 

我 们 在 3.3.2 节 讨 论 过 的 用 于 单 播 的 距离 向 量 路 由 可 以 扩展 为 支持 多 播 。 相 应 的 协议 
叫 作 距离 向 量 多 播 路 由 协议 (DVMRP)。DVMRP 是 第 一 个 有 望 广泛 使 用 的 多 播 路 由 
协议 。 

回忆 一 下 ， 在 距离 向 量 算 法 中 ， 每 台 路 由 器 保存 着 一 张 〈Destination，Cost，NextHop， 
(目的 地 ， 开 销 ， 下 一 跳 )) 的 表 ， 并 与 跟 它 直 连 的 相 邻 节点 交换 成 对 的 《Destination， 
Cost)(( 目 的 地 ， 开销)) 表 。 扩 展 这 个 算法 以 支持 多 播 分 两 个 阶段 处 理 。 首 先 ， 我 们 需要 
设计 一 种 广播 机 制 ， 允 许 把 分 组 转发 到 互联 网 的 所 有 网 络 上 。 其 次 ,我 们 需要 完善 这 一 机 
制 ， 删 除 那 些 没有 主机 属于 多 播 组 的 网 络 。 因 此 , DVMRP 可 称 为 洪 泛 剪 枝 (flood-and- 
prune) 协议 的 多 播 路 由 协议 。 

给 出 一 个 单 播 路 由 表 ， 每 台 路 由 器 都 知道 到 达 给 定 Destination 的 当前 最 短路 径 要 经 
过 的 NextHop。 因 此 ， 无 论 何 时 一 台 路 由 器 接收 到 源 S 的 一 个 多 播 分 组 ， 当 且 仅 当 分 组 通 
过 在 到 S 的 最 短路 径 上 的 链 路 到 达 〈 即 分 组 来 自 于 路 由 表 中 与 S 相关 的 NextHop) 时 ， 路 
由 器 才 将 分 组 在 所 有 输出 链 路 上 转发 (除了 分 组 到 来 的 这 条 链 路 )。 此 策略 有 效 地 将 分 组 
由 S 向 外 扩散 ,但 是 并 不 循环 回 到 S. 

此 方法 有 两 个 主要 缺点 。 首 先 ， 虽然 的 确 是 以 扩散 方式 发 往 网 络 ， 但 无 法 避 开 那些 没 
有 多 播 组 成 员 的 LAN。 我 们 将 在 下 面 解决 这 个 问题 。 第 二 个 缺点 是 连 到 一 个 LAN 上 的 每 
台 路 由 器 都 会 将 一 个 给 定 的 分 组 在 这 个 LAN 上 转发 。 这 是 因为 采用 向 除了 分 组 的 来 路 以 
外 的 所 有 链 路 进行 扩散 的 转发 策略 ， 而 没有 考虑 这 些 链 路 是 否 属于 以 源 为 根 的 最 短路 
径 树 。 

第 二 个 缺点 的 解决 办 法 是 删除 那些 由 连接 在 给 定 LAN 上 的 多 台 路 由 器 产生 的 重复 广 
播 分 组 。 方 法 之 一 是 为 与 源 相 关 的 每 条 链 路 指定 一 台 路 由 器 作为 父 (parent) 路 由 器 ， 只 
有 父 路 由 器 可 以 在 LAN 中 转发 从 源 而 来 的 多 播 分 组 。 选 择 到 源 S 路 径 最 短 的 路 由 器 作为 
父 路 由 器 ， 若 两 台 路 由 器 到 源 等 距 ， 则 选择 有 较 小 地 址 的 路 由 器 。 一 个 给 定 的 路 由 器 能 够 
根据 与 相 邻 节点 交换 的 距离 向 量 消息 知道 它 是 否 是 某 个 LAN 中 的 父 路 由 器 (再 次 同 每 个 
可 能 的 源 相 关 ) 。 

注意 ， 这 就 要 求 每 台 路 由 器 对 它 的 每 个 源 来 说 ， 都 要 为 每 条 相关 的 链 路 保留 一 位 ， 指 
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出 它 是 否 是 那个 源 / 链 路 对 的 父 路 由 器 。 记 住 在 互联 网 的 背景 之 下 ， 源 是 一 个 网 络 而 不 是 
一 台 主 机 ， 因 为 一 台 互 联网 路 由 器 只 对 网 络 间 转 发 分 组 感 兴趣 。 由 此 产生 的 机 制 有 时 叫 作 
逆向 路 径 广 播 (Reverse-Path Broadcast, RPB) 或 者 逆向 路 径 转 发 (Reverse Path For- 
warding，RPF)。 路 径 是 反 向 的 ， 因 为 我 们 在 考虑 什么 时 候 发 出 转发 指令 的 时 候 就 已 经 认 
识 到 了 到 源 的 最 短路 径 ， 就 像 在 单 播 路 由 中 我 们 用 最 短路 径 来 决定 目的 地 一 样 。 

RPB 机 制 只 实现 了 最 短路 径 广 播 。 现 在 ， 我 们 想 要 剪 枝 接收 目的 地 址 为 组 G 的 各 个 
分 组 的 网 络 ， 而 把 那些 不 含有 组 G 成 员 主 机 的 网 络 排除 在 外 。 这 个 过 程 可 以 分 两 步 实 现 。 
首先 ,我 们 需要 识别 没有 组 成 员 的 叶子 (leaf) 网 络 。 确 定 一 个 网 络 是 否 是 叶子 网 络 十 分 
容易 ， 如 果 RPB 中 描述 的 父 路 由 器 在 网 络 中 是 唯一 的 路 由 器 ， 那 么 此 网 络 就 是 叶子 网 络 。 
确定 组 的 成 员 是 否 在 网 络 中 ， 要 看 组 G 的 成 员 主机 是 否定 期 经 过 这 个 网 络 发 出 通知 ， 就 像 
我 们 在 链 路 状态 多 播 中 所 描述 的 那样 。 然 后 ， 路 由 器 用 此 信息 来 决定 是 否 将 地 址 为 G 的 多 
播 分 组 在 这 个 LAN 上 转发 。 

第 二 步 是 将 “这 里 没有 组 G 成 员 ” 的 信息 沿 最 短路 径 树 上 传 。 要 实现 这 样 的 功能 ， 路 
由 器 需要 在 向 相 邻 节点 发 送 的 《Destination，Cost〉 对 中 增加 一 些 内 容 ， 说 明 本 叶子 网 络 
希望 接收 哪些 组 的 多 播 分 组 。 接 着 ,这 个 信息 从 一 台 路 由 器 传播 到 另 一 台 路 由 器 ， 这 样 ， 
对 于 一 台 给 定 的 路 由 器 来 说 ， 它 知道 在 每 条 链 路 上 应 该 转发 哪些 组 的 多 播 分 组 。 

注意 在 路 由 更 新 中 包含 这 些 信息 的 代价 相当 高 。 因 此 ， 在 实际 情况 中 ， 这 些 信息 只 在 
某 个 源 开始 往 那个 组 发 送 分 组 时 才 被 交换 。 换 名 话说 ， 该 策略 将 使 用 RPB， 即 在 基本 距离 
向 量 算法 中 增加 了 少许 开销 ， 直 到 某 个 多 播 地 址 被 激活 。 这 时 ， 不 希望 接收 目的 地 址 为 那 
个 组 的 分 组 的 路 由 器 进行 声明 ， 然 后 将 信息 传 向 其 他 路 由 器 。 

2. PIM-SM 

协议 无 关 多 播 (Protocol Independent Multicast, PIM) 是 为 解决 当前 多 播 协议 的 可 
扩展 性 问题 而 开发 的 。 特 别 是 人 们 认识 到 在 一 小 部 分 路 由 器 希望 接收 某 个 特定 组 的 通信 量 
的 环境 下 ， 当 前 协议 的 可 扩展 性 并 不 是 很 好 。 例 如 ， 如 果 大 多 数 路 由 器 从 一 开始 就 不 希望 
接收 某 通信 量 ， 那 么 将 该 通信 量 广播 到 所 有 路 由 器 ， 直 到 它们 被 明确 要 求 从 分 发 中 删除 ， 
就 并 不 是 一 个 好 的 设计 选择 。 这 种 情况 很 常见 ， 因 此 PIM [ia] SL) hy Ah HARA (sparse 
mode) 和 稠密 模式 (dense mode)， 其 中 稀 玖 和 稠密 是 指 路 由 器 所 期 待 的 多 播 的 比例 。 
PIM 稠密 模式 (PIM-DM) 采用 了 洪 泛 前 枝 算法 ， 就 像 DVMRP 一 样 ， 并 且 还 要 忍受 同样 
的 扩展 问题 。PIM Fifi ist (PIM-SM) 已 经 成 为 了 域 多 播 路 由 协议 ， 这 里 将 重点 讨论 。 
顺便 说 一 下 ， 和 DVMRP 等 早期 协议 不 同 , PIM“ 协 议 无 关 ” 指 的 是 PIM 不 依赖 于 任何 特 
定 的 单 播 路 由 。 就 像 我 们 下 面 可 看 到 的 ， 它 可 以 用 于 任何 单 播 路 由 。 

在 PIM-SM 中 ， 路 由 器 使 用 称 为 Join (加 入 ) 的 PIM 协议 消息 加 入 多 播 分 布 树 。 注 
意 这 与 DVMRP 的 先 创建 广播 树 再 剪 枝 无 关 路 由 的 方式 不 同 。 由 此 引起 的 问题 是 这 些 Join 
消息 发 向 何 处 ， 毕 竟 任 何 路 由 器 〈 任 何 数量 的 路 由 器 ) 都 可 以 发 送 消息 到 多 播 组 。 为 了 解 
决 这 一 问题 ，PIM 为 每 个 组 指定 一 个 称 为 汇集 点 (rendezvous point, RP) 的 路 由 器 。 通 
常 ， 一 个 域 中 的 很 多 路 由 器 都 被 配置 为 候选 RP, PIM-SM 定义 了 一 系列 过 程 ， 通 过 这 些 
过 程 ， 域 中 所 有 路 由 器 能 够 一 致 同意 某 一 台 路 由 器 作为 一 个 特定 组 的 RP。 这 些 过 程 很 复 
杂 ， 因 为 它们 必须 处 理 各 种 各 样 的 情况 ， 如 一 台 候 选 RP 出 现 故障 以 及 一 个 域 由 于 很 多 链 
路 或 节点 的 故障 而 划分 为 两 个 独立 的 网 络 等 。 后 面 的 讨论 中 假设 域 中 所 有 路 由 器 都 知道 某 


182 ip 


个 给 定 组 的 RP 的 单 播 地 址 。 

多 播 转发 树 是 路 由 器 向 RP 发 送 Join 消息 的 结果 。PIM-SM 允许 构造 两 种 类 型 的 树 : 
共享 (shared) 树 ， 所 有 发 送 方 都 可 以 使 用 ， 和 特定 源 Csource-specified) 树 ， 只 允许 一 
个 特定 的 发 送 主机 使 用 。 操 作 的 标准 模式 首先 创建 共享 树 ， 然 后 ， 如 果 有 足够 的 通信 量 保 
证 还 可 建造 一 个 或 多 个 特定 源 树 。 因 为 建树 时 沿 树 设 置 路 由 器 的 状态 ， 所 以 默认 一 个 组 只 
有 一 棵 树 而 不 是 一 个 组 中 每 个 发 送 方 有 一 棵 树 是 很 重要 的 ， 

当 一 台 路 由 器 向 组 G 的 RP 发 送 一 条 Join 消息 时 ， 它 使 用 标准 IP 单 播 方 式 传送 。 如 
图 4-14a ran. Pe Ae R4 发 送 一 条 Join 到 某 个 组 的 汇集 点 。 初 始 Join HAE “ACH”. 
即 它 适用 于 所 有 发 送 方 。 显 然 ， 一 条 Join 消息 必须 经 一 台 路 由 器 序列 到 达 RP (如 R2). 
沿途 的 每 台 路 由 器 都 看 到 了 Join， 并 在 转发 表 中 创建 一 条 共享 树 的 记录 ， 称 为 (* ，G) 
记录 (“* ”表示 “所 有 发 送 方 ”) 。 为 了 创建 转发 表 记录 ， 它 查 看 Join 到 达 的 接口 ， 并 把 
这 个 接口 标记 为 用 于 转发 这 个 组 的 数据 分 组 的 接口 。 然 后 它 决 定 使 用 哪个 接口 将 Join 转发 
到 RP。 这 个 接口 将 成 为 发 往 本 组 的 输入 分 组 的 唯一 可 接收 的 接口 。 然 后 它 向 RP 转发 
Join。 最 后 ， 消 息 到 达 RP， 完 成 树 分 支 的 建立 。 这 样 建立 的 共享 树 如 图 4- 14a 中 从 RP 到 
R4 的 粗 实 线 所 示 。 


RP 
es 
a 
R3 / R2 R4 
= >Z — e9 
x —_ -a — 4 
Join \ 
RI | R5 
> =D 





RI 
FZ 
c) RP 通过 向 R1 发 送 Join 以 在 R1 上 建立 特定 源 树 d) R4 和 RS 通过 向 R1 发 送 Join 以 在 RI 上 建立 特定 源 树 
RP== 汇 集 点 
一 一 共享 树 
---- 源 R1 的 特定 源 树 


图 4-14 PIM 操作 


当 有 更 多 的 路 由 器 向 RP 发 出 Join 时 ， 将 导致 新 的 分 支 添加 到 树 上 ， 如 图 4- 14b 所 
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Re 注意 在 这 种 情况 下 ，Join 只 需要 传送 到 R2, R2 在 为 这 个 组 创建 的 转发 表 记 录 中 简单 
地 增加 一 个 新 的 输出 接口 、 即 可 将 新 分 支 添加 到 树 上 。R2 不 需要 转发 Join 到 RP。 还 需 注 
意 此 过 程 的 最 终结 果 是 创建 了 一 棵 以 RP 为 根 的 树 。 

现在 ,假设 一 台 主机 希望 发 送 一 个 消息 到 这 个 组 。 为 此 ， 它 构造 一 个 目标 为 适当 的 多 
播 组 地 址 的 分 组 ， 并 将 其 发 往 一 个 称 为 指派 路 由 器 (Designated Router, DR) 的 局 域 网 路 
由 器 .假设 DR 是 图 4-14 中 的 R1。 这 时 R1 和 RP 之 间 没 有 这 一 多 播 组 的 状态 ， 因 此 ，R1 
使 用 隧道 (tunnel) 将 多 播 分 组 传送 到 RP， 而 不 是 简单 地 转发 它 。 即 R 将 多 播 分 组 封装 
在 一 个 PIM Register (注册 ) 消息 中 ,发 向 RP 的 单 播 IP 地址。 就 像 3. 2. 9 节 描 述 的 隧道 
端点 一 样 ，RP 接收 指向 它 的 分 组 ， 并 通过 注册 信息 查看 它 的 有 效 载荷 ， 找 到 其 中 地 址 为 
该 组 的 多 播 地 址 的 IP 分 组 。 当 然 ，RP 知道 如 何 处 理 这 样 一 个 分 组 ， 它 会 将 此 分 组 发 往 以 
RP 为 根 的 共享 树 。 在 图 4-14 的 例子 中 ， 这 意味 着 RP 将 分 组 发 往 R2，R2 能 将 分 组 转发 
到 R4 和 R5。 从 R1 到 R4 ARS 的 一 个 分 组 的 完整 传送 过 程 如 图 4-15 所 示 。 我 们 可 以 看 
到 ， 从 R1 到 RP 经 隧道 传送 的 分 组 带 有 包含 RP 单 播 地 址 的 附加 IP 首部 ， 然 后 ， 目 的 地 
址 为 G 的 多 播 分 组 沿 共享 树 到 达 R4 和 R5 。 





R3 [c] |ra 
Se — re 
Rejc] 
G | 
| 区 一 
R5| 
主机 


图 4-15 分 组 沿 共享 树 的 传送 过 程 。R1 将 分 组 经 隧道 传 到 RP, 
RP 青 沿 共享 树 将 分 组 转发 到 R4 和 R5 


现在 ， 我们 可 能 想 宣布 成 功 ， 因 为 所 有 主机 都 可 按 这 种 方式 向 接收 方 进行 发 送 。 然 
而 ， 在 分 组 发 往 RP 时 的 封装 和 解 封装 过 程 中 ， 存 在 一 些 带宽 无 效 和 处 理 开 销 ， 因 此 ，RP 
可 以 选择 将 有 关 组 的 信息 告 之 相关 路 由 器 以 避免 使 用 隧道 。 它 将 向 发 送 主机 发 送 一 个 Join 
消息 〈 见 图 4-14c)。 当 此 Join 向 主机 传送 时 ， 将 使 沿途 的 路 由 器 (R3) 得 知 有 关 组 的 信 
息 ， 因 此 DR 就 能 将 分 组 作为 原始 的 (native)( 即 非 隧道 的 ) 多 播 分 组 向 组 发 送 。 

本 阶段 需要 注意 的 一 个 重要 细节 是 由 RP 发 给 发 送 主机 的 Join 消息 仅 限于 该 发 送 主 机 
接收 ， 而 之 前 由 R4 和 RS 发 送 的 Join 消息 则 适用 于 所 有 发 送 方 。 这 样 ， 新 Join 的 结果 是 
创建 确定 的 源 与 RP 之 间 的 路 由 硕 的 特定 发 送 方 (sender-specific) 状态 。 这 种 状态 称 为 
(S, G) 状态 ， 因 为 它 用 于 一 个 发 送 方 到 一 个 组 的 情况 ; 与 之 相对 照 ， 接 收 方 与 RP 之 间 
的 (x ，G) 状态 用 于 所 有 发 送 方 。 因 此 ， 在 图 4-14c 中 ， 我 们 看 到 从 R1 到 RP 的 特定 源 
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路 由 (以 虚线 表示 ) 和 对 所 有 发 送 方 均 有 效 的 从 RP 到 接收 方 的 树 (以 粗 线 表示 )， 

下 一 步 可 能 的 优化 是 以 特定 源 树 代替 整个 共享 树 。 因 为 从 发 送 方 经 RP 到 接收 方 的 路 
径 也 许 比 可 能 的 最 短路 径 长 得 多 ， 也 可 能 因为 从 某 个 发 送 方 观察 到 的 高 数据 率 而 触发 这 种 
优化 。 在 这 种 情况 下 ， 在 树 的 下 游 的 路 由 器 ， 如 例 中 的 R4， 向 源 发 送 特 定 源 的 Join JAB. 
当 此 消息 按 最 短路 径 传 向 源 时 ， 沿 途 路 由 器 创建 树 的 (S, O 状态 ,结果 是 得 到 以 源 为 
根 而 不 是 以 RP 为 根 的 树 。 假 设 R4 和 RS 都 换 成 特定 源 树 ， 我 们 最 终 将 得 到 如 图 4-14d 所 
示 的 树 。 注 意 这 棵 树 不 再 包括 RP。 我 们 从 图 中 删 掉 了 共享 树 以 便 简化 该 图 ， 但 是 实际 上 ， 
所 有 连 有 某 组 接收 方 的 路 由 需 必 须 留 在 共享 树 中 ， 以 防止 新 的 发 送 方 出 现 。 

现在 我 们 明白 了 为 什么 PIM 是 协议 无 关 的 ， 因 为 它 建造 和 维护 树 的 所 有 机 制 都 得 益 
于 单 播 路 由 而 不 依赖 于 域 中 使 用 的 任何 特殊 的 单 播 路 由 协议 。 树 的 构成 完全 由 Join 消息 所 
走 的 路 径 决 定 ， 而 这 个 路 径 由 单 播 路 由 的 最 短路 径 决 定 。 因 此 ， 准 确 地 说 ， 与 本 节 描 述 的 
从 链 路 状态 或 距离 向 量 路 由 中 导出 的 其 他 多 播 路 由 协议 相 比较 ，PIM 是 “与 单 播 路 由 协议 
无 关 的 ”。 注 意 ，PIM 与 IP 协议 密切 相关 ， 即 从 网 络 层 协议 看 ， 它 并 不 是 协议 无 关 的 。 

PIM-SM 的 设计 再 一 次 显示 出 建造 可 扩展 性 网 络 的 挑战 ， 以 及 可 扩展 性 有 时 是 如 何 与 
某 种 优化 性 相对 立 的 。 共 享 树 当 然 比特 定 源 树 具 有 更 大 的 可 扩展 性 ， 因 为 它 将 路 由 器 的 全 
部 状态 化 简 为 组 数 的 规模 而 不 是 成 倍 于 组 数 的 发 送 方 数 的 规模 。 然 而 ， 特 定 源 树 很 可 能 是 
达到 更 高 效 的 路 由 所 必需 的 。 

3. 域 间 多 播 (MSDP) 

在 域 间 多 播 时 ，PIM-SM 有 很 多 大 的 缺陷 。 特 别 是 一 个 组 中 单个 RP 的 存在 违反 了 域 
本 身 是 匿名 的 原则 。 对 于 一 个 给 定 的 多 播 组 ， 所 有 参与 的 域 都 依赖 于 RP 所 在 的 域 。 更 为 
其 者 ， 如 果 一 个 参与 的 多 播 组 中 发 送 方 和 接收 方 共享 一 个 单独 的 域 , 那么 无 论 域 是 否 有 多 
播 组 的 RP， 多 播 流量 都 会 从 发 送 方 到 接收 方 。 因 此 ，PIM-SM 协议 不 是 一 个 域 间 协议 . 
而 是 一 个 域内 协议 。 

为 了 使 PIM-SM 可 以 用 于 域 间 多 播 ， 人 们 设计 了 多 播 源 发 现 协 议 (Multicast Source 
Discovery Protocol，MSDP)。MSDP 用 于 连接 不 同 的 域 ， 其 中 的 每 个 域 都 运行 PIM-SM 
并 拥有 自己 的 RP。MSDP 可 将 不 同 域 的 RP 连接 起 来 。 每 个 RP 在 其 他 域 中 都 有 一 个 或 多 
个 MSDP 对 等 RP。 每 对 MSDP 对 等 通过 TCP 连接 ( 见 5.2 节 ) 穿越 运行 MSDP 协议 的 
区 域 。 同 时 ， 给 定 的 多 播 组 中 所 有 MSDP 对 等 形成 一 个 用 于 广播 网 络 的 松散 网 格 。MSDP 
消息 通过 该 对 等 RP 网 格 利用 反 路 径 广播 算法 进行 广播 。 该 算法 我 们 在 介绍 DVMRP 内 容 
时 讨论 过 。 

MSDP 通过 RP 网 格 广播 了 什么 信息 呢 ? 肯定 不 是 组 成 员 信 息 。 当 一 台 主 机 加 入 一 个 
组 时 ， 大 部 分 的 信息 都 流向 自己 域内 的 RP。MSDP 广播 的 是 源 一 一 多 播发 送 方 一 一 信息 。 
每 个 RP 都 知道 自己 域 中 的 源 ， 因 为 每 当 一 个 新 的 源 加 入 都 会 接收 到 一 个 Register (注册 ) 
消息 。 每 个 RP 定期 地 使 用 MSDP 来 广播 Source Active 〈 源 活动 ) 消息 给 对 等 方 ， 给 出 源 
的 IP 地 址 、 多 播 组 地 址 和 原始 RP 的 IP 地 址 。 

如 图 4-16a 所 示 ， 如 果 一 个 MSDP 对 等 RP 接收 到 多 播 组 有 活动 的 接收 方 的 广播 ， 那 
么 为 了 它 自己 的 利益 ， 它 将 发 送 一 个 特定 源 的 Join 消息 给 源 主机 。 如 图 4-16b 所 示 , Join 
信息 为 这 个 PR 建立 一 个 特定 源 树 。 结 果 是 每 个 MSDP 网 络 成 员 并 拥有 特定 多 播 组 的 活动 
接收 方 的 RP， 都 加 入 到 新 源 的 特定 源 树 中 。 当 一 个 RP 从 源 中 接收 多 播 时 ，RP 就 利用 其 
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共享 树 在 域 中 给 接收 方 转发 多 播 。 





Source active 


a) 源 SR 向 域 RP ( 即 RP1 ) 发 送 Register， 然 后 RP1 向 SR 发 送 特定 源 Join， 并 
向 在 域 B 的 MSDP 对 等 方 ( 即 RP2 ) 发 送 MSDP Source Active, 
然后 RP2 向 SR 发 送 特定 源 Join 


域 A 
| 一 -上 = 一 一 一 -一 ~ Sites 
\ “Sng 域 B 
RPI ^ N 'RP2 
Sg 当 ， 
\ Pa p 
一 -一 共享 树 
---- 源 SR 的 特定 源 树 


b ) 至 此 ，RP1 和 RP2 都 加 入 了 源 SR 的 特定 源 树 
fl 4-16 MSDP 操作 


4. 特定 源 多 播 (PIM-SSM) 

就 像 早 期 的 多 播 协议 一 样 ， 最 初 的 PIM 服务 模型 是 一 个 多 对 多 的 模型 。 接 收 方 加 入 
一 个 组 ， 而 且 任 何 主机 都 可 以 向 这 个 组 发 送 消息 。 然 而 ， 在 20 世纪 90 年 代 末 ， 人 们 重新 
认识 到 PIM 中 可 以 加 入 一 对 多 模型 。 毕 竞 ， 很 多 多 播 应 用 只 有 一 个 合法 发 送 方 ， 就 像 一 
个 正在 因特网 上 发 送 的 会 议 的 发 言 者 一 样 。 我 们 已 经 看 到 PIM-SM 在 使 用 原始 共享 树 后 ， 
可 以 创建 出 优化 的 特定 源 最 短路 径 树 。 在 原始 的 PIM 设计 中 ， 这 种 优化 对 于 主机 是 不 可 
见 的 一 一 只 有 路 由 器 加 入 特定 源 树 中 。 然 而 ,一 旦 人 们 认识 到 一 对 多 服务 模型 的 需求 ， 
PIM-SM 的 特定 源 路 由 能 力 就 被 确定 为 主机 可 用 。 事 实 上 ， 这 需要 改变 IGMP 和 类 似 于 
IPv6 的 MLD (多 播 侦 听 发 现 )， 而 不 是 改变 PIM 本 身 。 这 种 新 近 的 能 力 称 为 PIM-SSM 
(PIM 特定 源 多 播 ) 。 

PIM-SSM 引进 了 一 个 新 的 概念 一 一 信道 (channel) 。 信 道 是 一 个 源 地 址 S 和 组 地 址 G 
的 合成 。 组 地 址 G 就 像 一 个 普通 的 IP 多 播 组 ， 而 且 IPv4 和 IPv6 已 经 分 配 了 SSM 的 多 播 
地 址 空间 的 子 范围 。 为 使 用 PIM-SSM， 主 机 要 指出 在 发 送 给 本 地 路 由 器 的 IGMP 成 员 报 
告 消息 中 的 组 和 源 。 这 人 台 路 由 咒 随 后 发 送 一 个 PIM-SM 特定 源 Join 消息 给 源 ， 因 此 在 特 
定 源 树 上 给 自己 增加 一 个 分 支 ， 就 像 之 前 描述 的 “普通 ”PIM-SM 一 样 ， 但 绕 过 了 整个 共 
享 树 阶 段 。 既 然 树 中 结果 是 针对 特定 源 的 ,那么 只 有 指定 的 源 在 树 中 可 以 发 送 分 组 。 

PIM-SSM 的 引入 带 来 了 一 些 明 显 的 好 处 ， 特 别 是 因为 对 一 对 多 播 有 着 更 高 的 要 求 ， 
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多 播 更 直接 地 传 向 接收 方 。 

信道 地 址 更 有 效 地 由 多 播 组 地 址 加 上 源 地 址 组 成 。 因 此 ， 给 定 一 个 特定 多 播 组 地 
址 范围 有 利于 SSM 的 使 用 ， 多 个 域 可 以 独立 而 没有 冲突 地 使 用 同一 个 多 播 组 地 
址 ， 就 像 它们 在 自己 域 中 的 源 上 使 用 一 样 。 

既然 只 有 特定 源 可 以 向 SSM 组 发 送 消息 ， 所 以 几乎 不 存在 被 恶意 主机 使 用 伪造 的 
多 播 流量 来 淹没 主机 和 接收 方 从 而 被 攻击 的 风险 。 

PIM-SSM 可 以 像 用 于 域内 一 样 用 于 域 间 ， 而 不 会 依靠 任何 其 他 类 似 于 MSDP 的 
协议 。 

所 以 ，SSM 对 于 多 播 服务 模型 来 说 是 一 个 有 用 的 补充 。 

5. 双向 树 (BIDIR-PIM) 

我 们 利用 另 一 种 针对 PIM 进行 增强 的 称 为 双向 PIM (Bidirectional PIM) 的 方法 来 完 
善 对 于 多 播 的 讨论 。BIDIR-PIM 是 PIM-SM 的 变种 ， 可 很 好 地 适用 于 域内 的 多 对 多 多 播 . 
尤其 是 当 组 内 的 发 送 方 同时 也 是 接收 方 时 (比如 在 多 方 视频 会 议 的 情境 下 )。 在 PIM-SM 
中 ， 洪 在 的 接收 方 通过 发 送 IGMP 成 员 报 告 消 息 (一 定 不 是 特定 源 消息 ) MAA, HE 
BE He AY S Sao ere 然而 ， 和 PIM-SM 不 同 ， 共 享 树 有 通 向 源 的 分 支 。 

这 对 于 PIM-SM 的 单 向 树 没 有 任何 影响 ， 但 BIDIR-PIM 的 树 是 双向 的 一 一 从 下 行 流 分 支 
中 收 到 多 播 分 组 的 路 由 器 可 以 将 分 组 向 下 或 向 上 沿 树 进 行 转发 。 传 输 一 个 分 组 到 特定 接 
收 方 的 路 由 在 向 下 分 支 到 达 接 收 方 之 前 ， 必 须 经 过 同样 远 的 向 上 分 支 。 作 为 例子 ， 请 看 
图 4-17b 中 的 R1 到 R2 之 间 的 多 播 路 由 。R4 转发 一 个 下 行 多 播 分 组 到 R2 的 同时 ， 转 发 
一 个 相同 分 组 的 拷贝 到 上 行 的 RS. 

BIDIR- PM Sr ets elem 是 它 不 需要 RP。 它 所 需要 的 仅仅 是 一 个 可 用 路 由 地 
址 ， 我 们 称 之 为 RP 地 址 ， 尽 管 它 完全 没 必 要 是 一 个 RP 的 地 址 。 这 意味 着 什么 ?来自 接 
收 方 的 Join 被 转发 到 RP 地 址 直到 到 达 其 台 路 由 器 ， 这 台 路 由 器 具有 链接 的 接口 ， 
链接 包含 Join 消息 终止 位 置 的 RP 地 址 。 图 4-17a 显示 了 一 个 从 R2 到 R5 AY Join AB. 
另 一 个 从 R3 到 R6 的 Join 消息 。 多 播 分 组 的 上 行 流 同样 流向 RP 地 址 ， 直 到 到 达 whe 
有 RP 终止 地 址 所 在 链 路 接口 的 路 由 器 。 之 后 是 上 行 转发 的 最 后 一 步 ， 路 由 器 在 此 链 路 上 
转发 多 播 分 组 ， 保 证 此 链接 上 的 所 有 其 他 路 由 器 可 以 接收 到 该 分 组 。 图 4- 17b 显示 了 从 
RI 出 发 的 多 播 流 量 。 

BIDIR-PIM 至 今 无 法 用 于 域 间 。 男 一 方面 ,与 域 中 用 于 多 对 多 多 播 的 PIM-SM 相 比 ， 
BIDIR-PIM 还 是 有 很 多 优势 的 。 

。 没有 源 注 册 过 程 ， 因 为 路 由 器 已 经 知道 如 何 向 RP 地 址 路 由 一 个 多 播 分 组 。 

该 路 由 比 使 用 PIM-SM 共享 树 的 路 由 更 直接 地 到 达 ， 因 为 该 路 由 只 按 需 要 沿 树 上 
行 而 不 是 遍历 整个 RP 路 径 。 

双向 树 使 用 比 PIM-SM 特定 源 树 更 少 的 状态 ， 因 为 这 里 没有 任何 特定 源 状 态 〈 换 
句 话 说， 路 由 将 长 于 特定 源 树 ) 。 

RP 不 会 成 为 瓶颈 ， 而 且 确 实 不 需要 真正 的 RP。 

结论 产生 于 这 样 一 个 事实 ， 多 播 中 很 多 不 同 的 方法 是 与 PIM 有 关 的 ， 而 在 多 播 空 间 
里 寻找 优化 方案 是 个 非常 困难 的 问题 。 在 你 为 这 个 任务 选择 最 好 的 多 播 模式 之 前 ， 需 要 决 
定 用 哪些 标准 进行 优化 〈 使 用 带宽 、 路 由 器 状态 、 BEKED 以 及 支持 哪 种 应 用 《一 对 
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多 、 多 对 多 等 )。 


RP 地 址 连接 





iat 


— 
2. 
5 


R3 





i 


a) R2 和 R3 向 RP 地 址 发 送 Join ， 并 在 到 达 一 个 RP 地 址 
链 路 上 的 路 由 器 时 终止 


5 
CN 


RP 地 址 连接 











WOE 


R1 R2 


b) R1 发 出 的 多 播 分 组 转发 上 行 流 到 RP 地 址 链 路 ， 
当 与 某 个 成 员 分 支 相交 时 转发 下 行 流 


图 4-17 BIDIR-PIM 操作 


它们 现在 在 哪 ? 

多 播 协 议 的 命运 

自从 1991 年 Steve Deering 的 博士 论文 “Multicast Routing in a Datagram Network” 
(数据 分 组 网 络 中 的 多 播 路 由 ) 发 表 之 后 ， 许 多 IP 多 播 协 议 被 抛弃 。 在 很 多 情况 下 ,这些 
协议 都 仍然 有 很 多 可 借鉴 的 地 方 。 最 成 功 的 早期 多 播 协 议 是 DVMRP， 我 们 已 经 在 本 节 开 
始 的 时 候 讨 论 过 了 。 多 播 开放 最 短路 径 优 先 (MOSPF) 协议 是 基于 OSPF 单 播 路 由 协议 
的 。PIM 稠密 模式 (PIM-DM) 与 DVMRP 类 似 ， 同 样 使 用 了 洪 泛 剪 枝 方法 ， 同 时 在 独立 
单 播 路 由 协议 中 的 应 用 又 与 PIM-SM 类 似 。 这 些 协议 更 适合 稠密 域 ( 比 如， 一 个 有 高 转发 
率 的 路 由 器 会 对 多 播 有 兴趣 )。 在 扩展 性 的 挑战 充分 显现 之 前 ,这些 早期 多 播 协 议 都 显示 
出 了 一 定 的 相关 性 。 即 使 它们 仍然 在 一 个 多 播 组 域内 有 意义 并 期 望 得 到 更 多 的 关注 ， 但 它 
们 现在 已 经 很 少 使 用 了 ， 一 部 分 因素 是 路 由 器 通常 必须 支持 PIM-SM, 

核 基 树 (Core-based tree, CBT) 是 另外 一 种 多 播 方法 ， 这 种 方法 是 与 PIM 同时 期 出 
现 的 。IETF 一 开始 无 法 在 这 两 种 方法 中 进行 选择 ， 而 且 PIM 和 CBT 都 是 先进 的 “实验 
性 ”协议 。 然 而 ，PIM 在 行业 中 被 人 们 更 广泛 地 采用 了 ， 而 且 CBT 的 主要 技术 一 一 共享 
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树 和 双向 树 一 一 分 别 被 完全 合并 到 PIM-SM 和 BIDIR-PIM 中 , 
边界 网 关 多 播 协议 (BGMP) 使 用 了 双向 共享 树 的 概念 。 然 而， 在 BGMP F. Hjh 
是 域 ， 域 中 的 一 个 是 根 。 换 句 话 讲 ，BGMP 像 MSDP 一 样 连 在 一 起 支持 域 间 多 播 。 
MSDP 不 同 的 是 ， 域 可 以 自由 地 选择 域内 协议 。BGMP 是 IETF 提出 的 协议 ， 几 年 前 人 们 
还 希望 BGMP 取代 MSDP 作为 主要 的 域 间 路 由 协议 。 然 而 BGMP 非常 复杂 ， 它 需要 一 个 
给 域 指派 多 播 地 址 的 协议 ， 以 使 BGMP 知道 哪个 域 是 给 定 地 址 的 根 。 因 此 ， 在 写 出 该 协 
议 的 时 候 ， 并 没有 对 BGMP 加 以 实现 。 


aT 








4.3 多 协议 标签 交换 (MPLS) 


我 们 继续 讨论 使 IP 性 能 增强 的 体系 结构 ， 这 些 结构 运用 广泛 ， 但 在 终端 用 户 一 侧 通 
常 是 隐藏 的 。 一 种 提高 方式 称 为 多 协议 标签 交换 (Multi-protocol Label Switching. 
MPLS)， 它 将 虚 电 路 的 一 些 特点 与 数据 报 的 灵活 性 和 健壮 性 结合 在 一 起 。 一 方面 ，MPLS 
与 基于 IP 数据 报 的 体系 结构 有 密切 关系 ， 即 它 依靠 IP 地 址 和 IP 路 由 协议 来 工作 。 另 一 
方面 ， 支 持 MPLS 的 路 由 器 也 通过 检查 相对 短 的 、 固 定 长 度 的 标记 来 转发 分 组 ， 这 些 标记 
有 一 个 局 部 范围 ， 就 像 在 虚 电 路 网 络 中 一 样 。 也 许 正 是 这 两 种 表面 对 立 的 技术 的 结合 使 
MPLS 在 因特网 工程 界 被 各 方 所 接受 。 

在 讨论 MPLS 如 何 工作 之 前 ,很 自然 会 问 : “ 它 有 什么 好 处 ?” 关 于 MPLS 有 很 多 说 
法 ,但 是 现在 只 提 及 以 下 三 个 主要 方面 : 

。 使 不 具备 按 正 常 方式 转发 IP 数据 报 能 力 的 设备 支持 IP。 

。 按 显 式 路 由 (预先 计算 的 路 由 ) 转发 IP 数据 报 ， 而 无 需 匹 配 普通 IP 路 由 协议 选择 

的 路 由 。 

。 支持 特定 类 型 的 虚拟 专用 网 服务 。 

值得 注意 的 是 ， 最 初 目 的 之 一 一 一 提高 性 能 反而 没有 提 到 。 近 些 年 ， 为 了 提高 性 能 、 
人 们 对 TP 路 由 器 的 转发 算法 做 了 很 多 工作 ， 并 考虑 了 很 多 决定 性 能 的 首部 处 理 之 外 的 复 
杂 因 素 。 

了 解 MPLS 如 何 工作 的 最 佳 方法 是 来 看 一 些 实际 使 用 的 例子 。 在 以 下 三 节 中 ， 我们 将 
用 例子 分 别 讲述 以 上 提 到 的 三 种 MPLS 的 应 用 。 


4.3.1 基于 目的 地 的 转发 


最 早 介 绍 为 IP 分 组 附加 标签 这 一 思想 的 文章 之 一 是 Chandranmenon 和 Varghese 写 的 
论文 ， 其 中 描述 了 一 种 称 为 链 式 索引 (threaded index) 的 思想 。 与 之 非常 类 似 的 思想 现 
在 实现 在 支持 MPLS 的 路 由 器 上 。 下 面 的 例子 说 明 这 种 思想 是 如 何 工作 的 。 

考虑 如 图 4-18 的 网 络 。 最 右 侧 的 两 台 路 由 器 (R3 和 R4) 每 一 台 都 连 着 一 个 网 络 ， 前 
缀 分 别 为 18. 1. 1/24 和 18. 3. 3/24。 其 他 两 台 路 由 器 CRI 和 R2) 有 路 由 表 ， 指 出 当 路 由 
器 要 转发 分 组 到 那 两 个 网 络 之 一 时 使 用 哪个 发 送 接口 。 

当 一 台 路 由 器 能 够 支持 MPLS 时 ， 它 给 路 由 表 中 的 每 个 前 绥 都 分 配 一 个 标签 ， 并 将 标 
签 和 所 表示 的 前 缀 通知 相 邻 路 由 器 。 此 通知 的 分 发 由 标签 分 发 协议 (Label Distribution 
Protocol, LDP) 携带 。 如 图 4-19 所 示 ， 路 由 器 R2 给 前 级 18. 1. 1 分 配 的 标签 值 是 15， 给 
前 级 18. 3. 3 分 配 的 标签 值 是 16。 这 些 标签 可 由 分 配 路 由 器 来 选择 ， 可 以 看 作 是 路 由 表 的 
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18.1.1/24 


18.3.3/24 





图 4-18 示例 网 络 中 的 路 由 表 


索引 。 分 配 标签 之 后 ，R2 将 标签 绑 定 通知 给 相 邻 的 节点 ， 在 此 例 中 ， 可 以 看 到 R2 将 标签 
15 和 前 级 18. 1. 1 之 间 的 绑 定 通知 给 R1。 事 实 上 ， 这 样 的 一 个 通知 就 相当 于 R2 在 说 “请 
将 那些 发 给 我 的 目标 前 级 为 18. 1. 1 的 分 组 全 都 附着 标签 15”。R1 将 标签 存在 一 个 表 中 ， 
旁边 是 其 前 级 ， 表 示 它 是 发 往 那 个 前 级 的 任何 分 组 的 远程 或 输出 标签 。 

在 图 4-19c 中 ， 我 们 看 到 路 由 器 R3 将 另 一 个 前 缀 18. 1. 1 的 标签 通知 R2，R2 将 从 R3 
处 得 到 的 远程 标签 放 人 表 中 的 适当 位 置 

现在 ， 我 们 可 以 来 看 一 个 分 组 在 这 样 的 网 络 中 转发 时 的 情况 。 假 设 一 个 目的 IP 地 址 
为 18. 1.1.5 的 分 组 从 左边 传送 到 路 由 器 R1。 在 这 种 情况 下 ，R1 叫 作 标签 边缘 路 由 器 
(Label Edge Router, LER), LER 对 到 达 的 IP 分 组 进行 完全 的 IP 查找 ， 然 后 用 它们 的 标 
签 作 为 查找 的 结果 。 在 这 种 情况 下 ，R1 发 现 18.1.1.5 与 转发 表 中 的 前 级 18.1.1 匹配 ， 
并 且 这 条 记录 中 还 包含 一 个 输出 接口 和 一 个 远程 标签 值 。 因 此 RI 将 远程 标签 15 附加 到 这 
个 分 组 上 ， 然后 发 送 。 

当 分 组 到 达 R2 时 ，R2 只 查看 分 组 中 的 标签 ， 而 不 查看 IP 地 址 。R2 中 的 转发 表 指 示 
到 达 的 携带 标签 值 15 的 分 组 应 从 接口 1 发 出 ， 并 应 携带 路 由 器 R3 通知 的 标签 值 24。 因 
此 ，R2 重 写 或 是 交换 标签 ， 并 把 它 转 发 到 R3。 

这 些 应 用 和 标签 交换 完成 了 什么 工作 ? 来 看 此 例 中 R2 转发 分 组 时 的 情况 。 其 实 ， 它 
根本 不 需要 检查 P 地 址 。R2 只 检查 输入 的 标签 即 可 。 因 此 ， 我们 用 标签 查找 代替 正常 的 
IP 目的 地 址 查找 。 为 了 理解 这 种 做 法 的 重要 性 ， 回 忆 一 下 ,虽然 IP 地 址 的 长 度 总 是 相同 
的 ， 但 是 IP 前 级 是 变 长 的 ， 且 IP 目的 地 址 查找 算法 需要 查找 最 长 匹配 (longest match), 
即 与 将 要 转发 的 分 组 中 的 IP 地 址 高 比特 部 分 相 匹 配 的 最 长 前 级 。 相 反 ， 刚 才 描 述 的 标签 
转发 机 制 是 一 种 精确 匹配 (exact match) 算法 。 例 如 ， 通 过 使 用 标签 作为 数组 的 索引 ， 其 
中 数组 的 每 个 单元 是 转发 表 中 的 一 行 ， 就 可 以 实现 一 个 非常 简单 的 精确 匹配 算法 。 

注意 ， 当 转发 算法 从 最 长 匹配 变 为 精确 匹配 时 ， 路 由 算法 可 以 是 任何 一 种 标准 的 IP 
路 由 算法 (如 OSPF)。 在 此 环境 中 ， PAg 难过 的 路 径 就 是 在 不 使 用 MPLS 时 分 组 走 的 那 
条 路 径 ， 即 IP 路 由 算法 选择 的 路 径 。 改 变 的 只 是 转发 算法 。 

MPLS 重要 的 一 个 概念 可 以 用 这 个 例子 来 解释 。 每 个 MPLS 标签 与 一 个 转发 等 价 类 
(forwarding equivalence class, FEC) 相关 联 一 一 某 台 路 由 器 接收 同一 转发 处 理 的 分 组 集 
合 。 在 这 个 例子 里 ， 每 个 路 由 表 中 的 前 级 都 是 一 个 FEC。 所 有 满足 前 缀 18. 1.1 的 分 
组 无 论 低 序列 字 节 的 IP 地 址 是 什么 一 一 都 沿 同样 长 的 路 线 转 发 。 因 此 ， 每 台 路 由 器 
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c) R3 通 知 另 一 个 绑 定 ， 而 R2 将 收 到 的 标签 存储 在 表 中 


图 4-19 


都 能 分 配 一 个 标签 用 来 映射 到 18. 1. 1， 而 且 每 一 个 分 组 包含 的 IP 地 址 中 ， 只 要 高 位 和 前 
级 想 匹 配 便 可 以 用 这 个 前 缀 来 转发 。 

就 像 我 们 将 在 子 序列 样 例 中 看 到 的 ，FEC 是 非常 强大 而 灵活 的 概念 。FEC 可 以 形成 
几乎 所 有 标准 。 比 如 ， 所 有 与 特殊 用 户 相 关 的 分 组 都 被 认为 在 同一 个 FEC 中 。 

回 到 眼前 的 例子 ， 我 们 发 现 将 转发 算法 从 普通 IP 转发 改 为 标签 交换 产生 了 一 个 重要 
的 结果 : 以 前 不 知道 如 何 转发 IP 分 组 的 设备 可 以 用 来 在 MPLS 网 络 里 转发 IP 流量 。 早 期 
最 值得 称道 的 满足 此 要 求 的 是 ATM 交换 机 ， 它 们 可 以 不 做 任何 硬件 变化 就 支持 MPLS. 


DAN A 191 








ATM 交换 机 支持 之 前 所 描述 的 标签 交换 转发 算法 。 如 果 将 IP 路 由 协议 ORP) 和 发 布 标 
签 绑 定 的 方法 提供 给 这 些 交 换 机 ， 就 可 以 将 它们 变 成 标签 交换 路 由 器 (LSR) 一 一 该 设备 
可 以 运行 IP 控制 协议 但 使 用 标签 交换 转发 算法 。 最 近 ， 相 同 的 思想 被 应 用 于 在 3.1. 2 节 
介绍 的 光 交 换 机 中 。 

在 我 们 考虑 将 一 台 ATM 交换 机 变 成 一 台 LSR 的 好 处 之 前 ， 先 来 看 一 些 尚 未 解释 清楚 
的 问题 。 我 们 说 将 标签 “附加 ”在 分 组 上 ， 但 是 ， 到底 附加 在 哪儿 呢 ? 答案 要 看 分 组 是 在 
何 种 链 路 上 传送 的 。 在 分 组 上 携带 标签 有 两 种 常用 方法 ， 如 图 4-20 所 示 。 当 IP 分 组 作为 
完整 的 帧 传送 时 ， 它 们 在 大 多 数 链 路 类 型 上 ， 如 以 太 网 和 PPP, 标签 将 作为 一 个 “ 夹 片 ” 
插 在 第 二 层 首 部 和 IP (或 其 他 第 三 层 ) 首部 之 间 ， 如 图 中 较 低 位 置 所 示 。 然 而 ， 如 果 一 台 
ATM 交换 机 用 来 完成 MPLS LSR 的 功能 ， 那 么 标签 应 该 放 在 交换 机 能 使 用 的 地 方 ， 即 需 
要 放 在 ATM 信 元 首部 .确切 地 说 ， 通 常 在 我 们 寻找 虚拟 电路 标识 (VCI) 和 虚拟 路 径 标 
识 (VPD 字段 的 地 方 。 
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图 4-20 


现在 通过 这 个 设计 方案 ATM 交换 机 能 完成 LSR 的 功能 ,那么 我 们 从 中 得 到 了 什么 ? 
需要 注意 的 一 点 是 ， 现 在 我 们 可 以 建造 一 个 混合 使 用 传统 IP 路 由 器 、 标 签 边缘 路 由 器 和 
完成 LSR 功能 的 ATM 交换 机 的 网 络 . 同时 它们 都 可 以 使 用 相同 的 路 由 协议 。 为 了 理解 使 
用 相同 协议 的 好 处 ， 来 看 两 种 情况 。 在 图 4-21a 中 ,我们 看 到 一 组 路 由 器 通过 ATM 网 络 
上 的 虚 电 路 互联 ， 这 种 配置 叫 履 盖 〈overlay) 网 络 。 过 去 经 常 建造 这 种 类 型 的 网 络 ， 因 为 
商用 ATM 交换 机 比 路 由 器 支持 的 总 吞吐 量 高 。 现 在 ， 此 类 网 络 不 那么 普遍 了 ， 因 为 路 由 
器 的 性 能 已 经 提高 ， 甚 至 超过 了 ATM 交换 机 。 然 而 ， 这 种 网 络 仍然 存在 ， 因 为 在 主干 网 
中 已 经 安装 了 很 多 ATM 交换 机 ， 某 种 程度 上 也 是 因为 ATM 交换 机 有 能 力 支 持 一 些 性 能 ， 
如 电路 模拟 服务 和 虚 电路 服务 。 

在 复 盖 网 络 中 ， 每 台 路 由 器 都 可 经 虚 电 路 连接 其 他 所 有 路 由 器 ,但 是 在 这 里 ， 为 了 表 
示 得 更 清晰 ， 我 们 只 给 出 了 从 RI 到 其 他 所 有 对 等 路 由 器 的 电路 。R1 有 5 个 路 由 邻居 ， 并 
需要 跟 所 有 邻居 交换 路 由 协议 消息 我 们 说 R1 有 5 个 路 由 邻接 点 。 与 之 相对 照 ， 在 图 
4-21b 中 ，ATM 交换 机 被 LSR 代替 ， 不 再 有 虚 电路 与 路 由 器 连接 。 因 此 ，R1 只 有 一 个 多 
接点 ， 即 LSR1。 在 大 型 网 络 中 ， 在 交换 机 上 运行 MPLS 将 使 每 台 路 由 器 必须 维护 的 邻接 
点 数目 大 幅 减少 ， 并 可 大 幅 减少 路 由 器 为 了 将 拓扑 改变 通知 到 其 他 每 台 路 由 器 而 必须 做 的 
工作 量 。 

在 边缘 路 由 器 和 LSR 上 运行 相同 路 由 协议 的 第 二 个 好 处 是 可 使 边缘 路 由 器 对 网 络 拓 
扑 有 全 面 的 了 解 。 这 就 意味 着 如 果 网 络 中 的 某 条 链 路 或 某 个 节点 发 生 故 障 ， 那 么 边缘 路 由 
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器 就 会 有 更 好 的 机 会 选择 一 条 好 的 新 路 径 ， 而 不 像 在 边缘 路 由 器 没有 这 些 知 识 的 情况 下 . 
ATM 交换 机 需要 变更 受 影 响 VC 的 路 由 。 

注意 将 ATM 交换 机 用 LSR“ 和 替换 ”的 步骤 实际 上 是 通过 改变 运行 在 交换 机 上 的 协议 
来 实现 的 ， 但 通常 不 需要 改变 转发 硬件 。 也 就 是 说 ， 一 台 ATM 交换 机 总 是 可 以 通过 只 升 
级 软件 而 转换 为 一 台 MPLS LSR。 而 且 ，MPLS LSR 在 运行 MPLS 控制 协议 的 同时 ， 可 
以 继续 支持 标准 ATM 功能 ， 这 称 为 “混合 转换 器 模式 ”。 

最 近 ， 在 原本 不 能 转发 IP 分 组 的 设备 上 运行 IP 控制 协议 的 思想 已 经 扩展 到 了 光 交 换 
机 和 STDM 设备 上 上， 如 SONET 多 路 复 用 器 。 这 通常 称 作 通用 MPLS (generalized 
MPLS，GMPLS)。 采 用 GMPLS 的 部 分 动机 是 为 路 由 器 提供 光 网 络 的 拓扑 知识 ， 正 如 
ATM 中 的 情况 。 更 重要 的 是 以 前 没有 控制 光 设 备 的 标准 协议 ， 因 此 ， 看 起 来 MPLS 自然 
可 以 承担 这 个 工作 。 


相关 主题 

MPLS 位 于 哪 一 层 ? 

关于 MPLS 究 况 属于 1.3 节 给 出 的 分 层 协 议 体系 结构 的 哪 一 层 还 存在 很 多 和 争论。 由 于 
MPLS 首部 通常 位 于 分 组 的 第 三 层 和 第 二 层 首部 之 间 ， 所 以 它 有 时 被 称 为 2.5 层 协 议 。 有 
些 人 争辩 说 ， 由 于 IP 分 组 被 封装 在 MPLS 首部 内 ， 因 此 MPLS 必须 在 IP“ 之 下 ”"， 使 它 
成 为 第 二 层 协 议 。 而 另 一 些 人 认为 ， 由 于 MPLS 的 控制 协议 的 很 大 一 部 分 与 IP 使 用 同样 
的 协议 (MPLS 使 用 IP 路 由 协议 和 IP 编 址 )， 因 此 MPLS 必须 和 IP 在 同一 层 ( 即 第 3 
层 )。 如 1.3 节 所 述 ， 分 层 体系 结构 是 有 用 的 工具 ， 但 是 并 非 总 能 准确 地 描述 真实 世界 ， 
MPLS 就 是 一 个 很 好 的 例子 ， 反 映 出 严格 的 分 层 观点 可 能 很 难 与 现实 相 一 致 。 








4.3.2 显 式 路 由 

在 3.1.3 节 ， 我 们 介绍 了 源 路 由 的 概念 。IP 有 一 个 源 路 由 选项 ， 但 是 有 几 个 原因 使 其 
并 未 得 到 广泛 使 用 ， 包 括 它 只 能 说 明 有 限 数目 的 跳 数 ， 并 且 它 通常 在 大 多 数 路 由 器 上 的 
“快速 路 径 ” 之 外 进行 处 理 。 

MPLS 提供 了 一 种 方便 的 方法 将 类 似 于 源 路 由 的 能 力 添加 到 IP 网 络 中 ， 尽 管 这 种 能 
力 通常 叫 作 显 式 路 由 (explicit routing) 而 不 叫 作 源 路 由 (source routing)。 做 此 区 别 的 一 
个 原因 是 它 通常 不 是 选择 此 路 由 的 分 组 的 真正 源 ， 在 更 多 情况 下 它 是 服务 提供 商 网 络 中 的 
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一 台 路 由 器 。 图 4-22 所 示 的 是 如 何 使 用 MPLS 显 式 路 由 的 例子 。 这 种 网 络 通常 叫 作 鱼 
(fish) 形 网 络 ， 因 为 它 的 形状 像 鱼 〈 路 由 器 R1 和 R2 是 尾 ，R7 是 头 )。 





图 4-22 一 种 需要 显 式 路 由 的 网 络 


假设 在 图 4-22 的 网 络 中 ， 操 作者 已 经 决定 任何 从 R1 到 R7 的 通信 量 都 应 经 过 路 径 . 
R1-R3-R6-R7， 而 任何 从 R2 到 R7 的 通信 量 都 经 过 路 径 R2-R3-R4-R5-R7。 这 样 选择 的 一 
个 原因 是 充分 利用 从 R3 到 R? 之 间 两 条 不 同 路 径 的 可 用 容量 。 正 常 的 IP 路 由 无 法 轻易 做 
到 这 一 点 ， 因 为 R3 做 出 转发 决定 时 并 不 看 通信 量 来 自 何 处 。 

因为 MPLS 使 用 标签 交换 来 转发 分 组 ， 所 以 如 果 路 由 器 能 使 用 MPLS， 就 能 比较 容 
易 地 达到 想 要 的 路 由 。 如 果 Rl 和 R2 在 将 分 组 发 送 到 R3 之 前 为 它们 附加 了 各 自 的 标 
签 ， 那么 R3 就 可 以 将 来 自 R1 和 R2 的 分 组 转发 到 不 同 的 路 径 。 由 此 产生 的 问题 是 ， 网 
络 中 的 所 有 路 由 器 使 用 何 种 标签 达成 共识 ， 并 且 如 何 转发 有 特别 标签 的 分 组 ?” 显然 ， 我 
们 不 能 使 用 上 节 描 述 的 步 又 来 分 发 标签 ， 因 为 那些 步骤 建立 的 标签 会 使 分 组 按照 正常 IP 
路 由 的 路 径 走 ， 而 这 正 是 我 们 希望 避免 的 。 所 以 ， 需 要 一 种 新 的 机 制 。 完 成 此 任务 的 协 
议 叫 作 资 源 预 留 协 议 (RSVP)。 我 们 将 在 6.5.2 节 讨 论 有 关 这 个 协议 的 更 多 内 容 ， 这 
里 ， 只 说 明 它 能 够 沿 显 式 说 明 的 路 径 (如 R1-R3-R6-R7) 发 送 一 个 RSVP 消息 ， 并 据 此 
建立 沿 这 条 路 径 的 所 有 标签 转发 表 项 。 这 非常 类 似 于 3. 3 节 中 描述 的 建立 一 条 虚 电 路 的 
过 程 。 

显 式 路 由 的 应 用 之 一 是 通信 量 工 程 (traffic engineering), EIR RIEMA PA E 
够 的 可 用 资源 满足 需求 的 任务 。 确 切 地 控制 通信 量 流 经 哪 一 条 路 径 是 通信 量 工程 的 一 
个 重要 部 分 。 显 式 路 由 也 有 助 于 使 网 络 在 面 对 故 障 时 更 容易 恢复 ， 这 一 功能 称 为 快速 
重 选 路 由 (fast reroute) 。 例 如 ， 可 以 预先 计算 一 条 从 路 由 器 A 到 路 由 器 B 的 明显 避 
开 某 条 特定 链 路 工 的 路 径 。 当 链 路 工 出 错时 ， 路 由 器 A 就 可 将 所 有 目标 是 B 的 通信 
量 经 预先 计算 的 那 条 路 径 发 送 。 将 预先 计算 的 备份 路 径 与 对 沿路 径 分 组 进行 显 式 路 由 
的 结合 ， 意 味 着 A 不 需要 等 待 路 由 协议 分 组 穿 过 网 络 或 等 待 网 络 上 的 其 他 各 种 节点 
执行 路 由 算法 。 在 特定 情况 下 ， 这样 可 以 在 很 大 程度 上 减少 分 组 为 绕 过 出 错 点 而 重 选 
路 由 所 用 的 时 间 。 

有 关 显 式 路 由 需要 注意 的 最 后 一 点 是 ， 显 式 路 由 不 需要 由 网 络 操作 者 来 计算 ， 如 上 例 
所 述 ， 路 由 器 可 以 用 很 多 算法 来 自动 计算 显 式 路 由 。 其 中 最 常见 的 是 约束 最 短路 径 优先 
(Constrained Shortest Path First, CSPF) 算法 ， 类 似 于 3.3.3 节 描 述 的 链 路 状态 算法 ， 
但 是 要 考虑 一 些 约 束 。 例 如 ， 如 果 需 要 找到 一 条 从 R1 到 R7 的 路 径 ， 能 够 承担 要 求 的 
100Mbps 负载 ， 那 么 ， 我 们 就 可 以 说 约束 是 每 条 链 路 必须 至 少 有 100Mbps 的 可 用 容量 。 
CSPF 解决 这 类 问题 。 有 关 CSPF 的 更 多 细节 和 显 式 路 由 的 应 用 在 本 章 末 尾 的 “扩展 阅读 ” 
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43.3 虚拟 专用 网 和 隧道 

我 们 在 3. 2. 9 节 先 讨论 了 虚拟 专用 网 (VPN) ， 并 且 我 们 注意 到 ， 建 造 它们 的 方法 之 
一 是 使 用 隧道 。 事 实证 明 ，MPLS 可 以 看 作 是 建造 隧道 的 一 种 方法 ， 这 使 它 适 合 于 建造 各 
种 类 型 的 VPN. 

最 简单 形式 的 MPLS VPN 可 以 理解 为 第 二 层 的 VPN. 在 这 种 类 型 的 VPN P. 
MPLS 作为 第 二 层 数据 (如 以 太 网 的 帧 或 ATM 信 元 ) 的 隧道 穿 过 能 用 MPLS 路 由 器 的 网 
络 。 回 忆 一 下 ,在 3.2.9 节 中 ,使 用 隧道 的 一 个 原因 是 在 网 络 中 提供 一 些 路 由 右 不 支持 的 
某 种 网 络 服务 (如 多 播 )。 这 里 使 用 同样 的 逻辑 : IP 路 由 器 不 是 ATM 交换 机 ,因此 在 传 
统 的 路 由 器 网 络 中 不 能 提供 ATM 虚 电 路 服务 。 然 而 ， 如 果 有 经 隧道 互联 的 一 对 路 由 器 ， 
那么 就 可 经 隧道 发 送 ATM 信 元 ， 并 仿真 一 条 ATM 电路 。 这 种 技术 在 IETF 中 称 为 伪 线 





仿真 (pseudo wire emulation), KI 4-23 描述 了 这 种 思想 . 
ATM 信 元 到 达 ATM 信 元 发 出 

首部 
AR R2 me CD 
2S ee ES 

0 -l a 

a 隧道 将 信 元 送 到 尾部 
信 元 发 送 到 隧道 首部 


图 4-23 一 条 由 隧道 仿真 的 ATM 电路 


我 们 已 经 知道 IP 隧道 是 如 何 建造 的 : 在 隧道 人 口 的 路 由 器 把 将 要 用 隧道 传送 的 数据 
封装 在 一 个 IP 首部 (MMA) 内 ， 它 表示 在 隧道 远 端 的 路 由 器 地 址 ， 然 后 像 发送 其 他 
IP 分 组 一 样 发 送 数据 。 接 收 方 路 由 器 收 到 首部 中 带 有 它 自己 地 址 的 分 组 后 ， 将 隧道 首部 
剥离 ， 找 到 经 隧道 发 送 的 数据 ， 然 后 进行 处 理 。 它 对 数据 所 做 的 具体 处 理 依赖 于 数据 是 什 
么 。 例 如 ， 如 果 它 是 男 一 个 IP 分 组 ， 就 像 普通 IP 分 组 那样 将 它 转发 出 去 。 然而， 只 要 接 
收 方 路 由 器 知道 怎么 处 理 非 IP 分 组 的 话 ， 那么 它 也 可 以 不 是 一 个 IP 分 组 。 我 们 即将 讨论 
如 何 处 理 非 IP 数据 的 问题 。 

MPLS 隧道 与 IP 隧道 没有 太 大 不 同 ， 只 是 隧道 首部 中 包含 MPLS 首部 而 不 是 IP 首 
部 。 看 图 4-19 中 的 第 一 个 例子 ， 我 们 看 到 路 由 器 RI 为 每 个 发 往 前 级 18. 1. 1 的 分 组 附加 
一 个 标签 (15)。 这 样 的 分 组 将 通过 路 径 R1-R2-R3 传送 ， 路 径 中 的 每 台 路 由 器 只 检查 
MPLS 标签 。 因 此 ， 我 们 看 到 R1 沿 此 路 径 不 仅 可 以 发 送 IP 分 组 ， 只 要 是 能 够 封装 到 
MPLS 首部 的 任何 数据 都 可 以 通过 这 条 路 径 ， 因 为 相关 路 由 器 只 看 MPLS 首部 而 不 关心 其 
他 。 在 这 一 点 上 ，MPLS 首部 和 1IP 首部 一 样 .9 沿 隧道 (MPLS 或 其 他 ) 发 送 非 IP 通信 量 
的 唯一 的 问题 是 : 当 非 IP 通信 量 到 达 隧 道 端点 时 ， 我 们 该 做 什么 ?” 常 用 的 解决 办 法 是 在 
隧道 负载 中 携带 某 种 多 路 分 解 标 识 符 ， 告 诉 隧道 端点 的 路 由 器 怎么 做 事实 证 明 MPLS 标 
记 非 常 适合 做 这 样 的 标识 符 。 可 以 用 一 个 例子 把 这 一 点 解释 清楚 。 

假设 在 一 个 支持 MPLS 的 路 由 器 网 络 上 ， 我们 想 要 使 用 隧道 将 ATM 信 元 从 一 台 路 


O “注意 ，IP 的 首部 长 度 为 20 字 节 ,而 MPLS 只 有 4 字 节 ， 这 意味 着 使 用 MPLS 更 节省 带宽 。 
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由 器 传送 到 另 一 台 路 由 器 ， 如 图 4-23 所 示 。 而 且 ， 假 设 我 们 的 目标 是 仿真 一 条 ATM 虚 
电路 ,就 是 说 ， 信 元 到 达 带 有 某 个 VCI 的 输入 端口 的 隧道 人口 或 首部 ， 然 后 从 某 个 输出 
端口 的 隧道 的 尾部 和 男 一 个 VCI 处 离开 。 为 做 到 这 一 点 ， 可 如 下 配置 首部 和 尾部 路 
由 器 : 

。 首 路 由 器 需要 配置 输入 端口 、 输 入 VCI、 仿 真 电 路 的 多 路 分 解 标 签 以 及 隧道 端 路 

由 器 的 地 址 。 

。 尾部 路 由 器 需要 配置 输出 端口 、 输 出 VCI 和 多 路 分 解 标 签 。 

一 旦 路 由 器 有 了 这 些 信息 ,我 们 就 可 以 看 到 ATM 信 元 是 如 何 转发 的 。 其 步 又 如 
图 4-24 所 示 。 

1) 一 个 ATM 信 元 到 达 带 有 合适 VCI 值 (本 例 中 是 101) 的 指定 输入 端口 。 

2) 首部 路 由 器 添加 用 来 识别 仿真 电路 的 多 路 分 解 标 签 。 

3) 然后 ， 首 部 路 由 需 添 加 第 二 个 标签 ， 这 是 将 使 分 组 到 达 尾 部 路 由 器 的 隧道 标签 。 
此 标签 通过 4. 3. 1 节 描 述 的 机 制 获得 。 

4) 首部 和 尾部 之 间 的 路 由 器 转发 只 使 用 隧道 标签 的 分 组 。 

5) 尾部 路 由 右 删 除 隧道 标签 ， 找 到 多 路 分 解 标 签 ， 并 识别 出 仿真 电路 。 

6) 尾部 路 由 器 将 ATM VCI 修改 为 正确 的 值 (本 例 中 是 202)， 然 后 将 它 从 正确 的 端 
口 发 出 。 





1. ATM 信 元 到 达 6. ATM 信 元 发 出 
uoj |] 





(DLfioi [TLTDLIOT i] 5. 检 查 解 多 路 复 用 标签 
3. 添 加 隧道 标签 4. 分 组 向 尾部 转发 
el 4-24 沿 隧道 转发 ATM 信和 元 


在 这 个 例子 中 ， 可 能 令 人 感到 奇怪 的 一 点 是 分 组 附加 了 两 个 标签 。 这 是 MPLS 中 一 个 
有 趣 的 特点 ， 标 签 可 以 在 一 个 分 组 中 堆 秋 到 任意 深度 。 这 提供 了 某 些 有 用 的 可 扩展 的 能 
力 。 在 此 例 中 ， 这 使 得 一 个 隧道 可 能 包含 大 量 的 仿真 电路 。 

这 里 描述 的 技术 可 以 用 来 仿真 很 多 其 他 第 二 层 服 务 ， 包 括 帧 中 继 和 以 太 网 。 值 得 注意 
的 是 ， 也 可 以 使 用 IP 隧道 来 提供 本 质 上 相同 的 能 力 。 这 里 ，MPLS 的 主要 优点 是 隧道 首 
部 较 短 。 

在 MPLS 被 用 于 建立 隧道 第 二 层 的 服务 之 前 ， 它 也 用 于 支持 第 三 层 的 VPN。 我 们 不 
在 这 里 解释 第 三 层 VPN 的 细节 ， 因 为 它 很 复杂 ， 更 多 信息 的 来 源 参见 “扩展 阅读 "， 但 是 
我 们 将 指出 ， 它 们 代表 当今 MPLS 最 流行 的 一 种 应 用 。 第 三 层 VPN 也 使 用 MPLS 标签 栈 
使 分 组 经 隧道 在 IP 网 络 中 传送 。 然 而 ， 使 用 隧道 传送 的 分 组 本 身 就 是 IP 分 组 ， 因 此 叫 第 
三 层 VPN。 在 第 三 层 VPN 中 ， 一 个 服务 提供 商 运营 着 支持 MPLS 的 路 由 器 网 络 ， 为 任何 
数目 的 不 同 客户 提供 “虚拟 专用 ”IP 网 络 服务 。 也 就 是 说 ， 提 供 商 的 每 个 客户 都 有 多 个 
站 点 ， 服 务 提供 商 给 每 个 客户 都 造成 了 网 络 上 没有 其 他 客户 的 错觉 。 客 户 看 到 IP 网 络 只 
与 它 自己 的 站 点 互联 ， 而 不 连接 其 他 站 点 。 这 意味 着 每 个 客户 在 路 由 和 编 址 上 与 其 他 客户 
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都 是 隔离 的 。 客 户 A 不 能 直接 发 送 分 组 到 客户 B， 反 之 亦 然 .= 客户 A 甚至 可 以 使 用 客户 
B 使 用 过 的 IP 地 址 。 其 基本 思想 表示 在 图 4-25 中 。 像 在 第 二 层 VPN 中 一 样 ，MPLS 用 于 
将 分 组 通过 隧道 从 一 个 站 点 发 送 到 另 一 个 站 点 。 然 而 ， 隧 道 的 配置 是 通过 对 BGP 的 某 些 
相当 复杂 的 运用 自动 完成 ， 这 一 点 超出 了 本 书 的 范围 。 





VPN A/ 站 点 2 
oy e ee" VPN B/ 站 点 2 
VPN B/ 站 点 1 O) i 
VPN A/ 站 点 3 
VPN A/ 站 点 1 | 
J VPN B/ 站 点 3 


图 4-25 一 个 第 三 层 VPN 的 例子 。 客 户 A 和 客户 也 从 
一 个 提供 商 得 到 虚拟 专用 IP 服务 


总 而 言 之 ，MPLS 是 用 于 解决 很 多 不 同 的 网 络 互 联 问题 的 通用 工具 。 它 将 通常 与 虚 电 
路 网 络 相 联系 的 标签 交换 转发 机 制 与 IP 数据 报 网 络 的 路 由 和 控制 协议 结合 起 来 ， 产生 一 
类 具有 两 者 折 中 性 质 的 网 络 。 这 样 就 能 扩展 IP 网 络 的 能 力 ， 包 括 使 路 由 的 控制 更 为 精确 ， 
并 且 支 持 一 系列 VPN 服务 。 


它们 现在 在 哪 ? 

部 署 MPLS 

MPLS 最 初 的 设想 是 隐形 于 当今 的 互联 网 中 ， 对 大 多 数 客户 及 学 者 用 户 透明 ， 而 只 提 
供 独 立 服 务 提供 商 进 行 网 络 内 操作 的 技术 。 然 而 ， 现 在 几乎 是 强制 性 地 在 高 端 路 由 器 制造 
商 的 产品 中 包含 MPLS 功能 ， 并 在 服务 提供 商 中 广泛 应 用 。 至 少 对 于 关注 公共 互联 网 的 学 
生 和 研究 人 员 而 言 ，MPLS 技术 的 广泛 成 功 得 益 于 良好 的 保密 工作 。 

MPLS 的 两 个 主要 应 用 说 明了 MPLS 的 部 署 。 在 本 节 介 绍 的 第 三 层 VPN 应 用 是 
MPLS 的 重量 级 应 用 。 现 在 世界 上 几乎 每 一 个 服务 提供 商都 提供 基于 MPLS 的 第 三 层 
VPN 服务 。 由 于 第 三 层 VPN 服务 是 向 一 些 公 司 提供 给 专门 的 IP 服务 而 不 是 提供 全 球 因 
特 网 连接 ， 所 以 通常 运行 于 与 因特网 分 离 的 路 由 器 上 。 然 而 ， 一 些 提供 商 通过 一 个 共同 的 
骨干 网 运行 互联 网 服务 和 VPN 服务。 





© 事实 上 ， 客 户 A 通常 可 以 通过 受 限 途径 发 送 数据 给 客户 B。 最 有 可 能 的 是 客户 A 和 客户 B 具 有 到 整个 因特网 
的 连接 ， 且 客户 A 还 可 以 发 送 电子 邮件 ， 比 如 发 给 客户 B 网 络 内 部 的 邮件 服务 器 。VPN 提供 的 隐私 服务 可 阻 
止 客户 A 非 受 限 访问 客户 B 网 络 中 的 所 有 机 器 和 子 网 。 
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MPLS 的 第 二 大 用 途 是 显 式 路 由 ， 无论 是 流量 工程 或 快速 重 路 由 ， 或 者 两 者 兼 而 有 
之 。 不 同 于 明确 地 销售 给 终端 客户 的 第 三 层 VPN 服务 ， 显 式 路 由 是 提供 给 提供 商 的 提高 
其 网 络 的 可 靠 性 和 降低 成 本 的 内 部 能 力 。 提 供 商 通常 不 公开 他 们 的 内 部 网 络 的 设计 细节 ， 
因此 很 难 确定 有 多 少 提供 商 实 际 使 用 此 技术 。 很 显然 ， 使 用 MPLS 的 显 式 路 由 功能 的 提供 
商 比 使 用 VPN 功能 的 要 少 很 多 ， 但 显示 路 由 仍然 有 充分 的 应 用 ， 特 别 是 当 带 宽 晶 贵 的 时 
候 或 者 需要 维持 低 拥塞 需求 的 时 候 (例如 支持 实时 服务 )。 





4.4 移动 设备 之 间 的 路 由 = 

面 对 移动 设备 对 因特网 体系 结构 提出 的 挑战 时 我 们 不 必 过 于 吃惊 ， 因 为 因特网 是 在 计 
算 机 体型 庞大 、 不 可 移动 的 时 候 设 计 的 ， 即 使 因特网 设计 者 意识 到 移动 设备 可 能 在 未 来 出 
现 ， 也 大 可 不 必 将 兼容 这 些 设备 作为 首要 任务 。 当 然 , 今天 手提 电脑 到 处 都 是 ， 尤 其 是 在 
笔记 本 电脑 和 有 具备 IP 功能 的 手机 ， 且 还 在 以 更 多 的 其 他 形式 出 现 ， 比 如 传感器 。 在 本 节 
中 ,我们 将 着 眼 于 一 些 由 移动 设备 的 出 现 而 带 来 的 挑战 ， 以 及 一 些 应 对 挑战 的 方法 。 


4.4.1 移动 网 络 的 挑战 


本 书 的 大 部 分 读者 可 能 已 经 使 用 过 移动 网 络 设备 ， 对 许多 人 来 说 ， 移 动 设备 已 经 成 为 
5 soma WBA R 当然 ， ap 


le ee TEENE SPH eRe 
并 获取 IP 地 址 ， 使 笔记 本 与 一 台 默 认 路 由 器 和 一 个 域名 系统 (DNS) 服务 器 ( 见 9.3.1 
节 ) 连接 ， 运 行 应 用 程序 获取 需要 的 东西 。 

然而 如 果 我 们 仔细 观察 ， 对 于 某 些 应 用 场景 来 说 ， 每 次 移动 时 只 是 由 DHCP 得 到 一 
个 新 的 IP 地 址 很 明显 是 不 够 的 。 假 设 你 正在 用 笔记 本 或 智能 手机 打 IP 电话 ， 你 会 从 一 个 
热点 转 到 另 一 个 ， 甚 至 从 802. 11 转换 到 3G 无 线 网 络 连接 。 

显然 ， 当 你 从 一 个 接 人 网 络 移动 到 另 一 


个 时 ， 你 需要 一 个 对 应 新 网 络 的 新 的 卫 地 A 一 = ,和 
址 。 但是， 与 你 汪 信 的 另 一 并 的 计算 机 或 电 aya 802.11 
话 不 能 立即 知道 你 已 移动 以 及 你 的 新 IP 地 ed ~y 
hk. AIE, MRDA, At 
继续 发 送 到 你 之 前 使 用 的 是 地 址 ， 而 不 是 你 
现在 的 地 址 。 这 个 问题 如 图 4-26 所 示 , 当 W 一 = e 

a a 
移动 节点 从 4. 26a 中 的 802.11 网 络 移动 到 arsa { 
4. 26b 中 的 蜂 窜 网络 时 ， 通 信 节 点 (corres- i S iy 308 í 
pondent node) 分 组 需要 找到 通 向 移动 节点 Ae uy 
所 在 的 新 网 络 的 途径 。 b) 


现在 有 许多 不 同 的 方式 来 解决 刚才 描述 图 4-26 从 一 个 通信 节点 向 一 个 移动 节点 转发 分 组 





G 参见 “实验 九 ”。 
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的 问题 ， 我 们 会 在 下 面 讨 论 这 些 方法 。 假 设 有 一 些 方法 来 重 定 向 分 组 以 便 它 们 到 达 你 的 新 
地 址 而 不 是 旧地 址 ， 随 之 而 来 的 问题 将 涉及 安全 性 。 例 如 ， 如 果 有 一 种 机 制 使 得 我 可 以 说 
“我 的 新 IP 地 址 是 X”， 那 么 如 何 防 范 攻击 者 在 没有 得 到 我 许可 的 情况 下 发 布 这 样 的 消息 ， 
从 而 导致 其 接收 我 的 分 组 或 重 定向 转发 到 一 些 不 知情 的 第 三 方 ? 由 此 可 见 ， 安 全 性 和 移动 
性 之 间 存 在 密切 的 关系 。 

上 述 讨 论 强调 的 重点 是 IP 地 址 实际 上 承担 了 两 个 任务 。 它 们 不 但 作为 终端 的 标识 符 
(identifier)， 也 用 于 定位 (locate) 终端 。 我 们 将 标识 符 看 作 终端 的 长 期 命名 ， 而 将 定位 
需 看 作 有 关 如 何 将 分 组 路 由 至 终端 的 可 能 的 临时 信息 。 只 要 设备 不 动 或 不 经 常 移动 两 个 
任务 都 使 用 一 个 单一 的 地 址 似乎 很 合理 。 但 是 ， 一 旦 设备 开始 移动 .你 宁愿 要 一 个 不 随 移 
动 而 变化 的 标识 符 . 这 种 标识 符 可 以 称 为 终端 标识 符 (endpoint identifier) 或 主机 标识 符 
(host identifier) ， 另 外 还 有 分 离 的 定位 器 (locator)。 将 定位 器 与 标识 符 分 离 的 想法 已 经 
存在 了 很 长 时 间 ， 下 面 所 描述 的 大 多 数 处 理 移动 问题 的 方法 都 提供 了 某 种 形式 的 分 离 。 

IP 地 址 不 会 改变 的 假设 存在 于 不 同 的 地 方 。 例 如 ,我 们 将 在 下 一 章 讨论 的 像 TCP 这 
样 的 传输 协议 都 假设 IP 地 址 在 连接 的 整个 生命 周期 中 保持 不 变 ， 因此 在 移动 世界 操作 的 
传输 协议 需要 重新 评价 这 个 假设 。 

虽然 我 们 都 熟悉 移动 终端 ， 但 值得 注意 的 是 路 由 器 也 可 以 移动 。 这 当然 比 今天 的 移动 
终端 少见 ， 但 在 很 多 环境 中 移动 路 由 器 可 能 是 有 意义 的 。 一 个 例子 是 应 急 小 组 试图 在 某 些 
自然 灾害 已 经 破坏 了 所 有 固定 基础 设施 之 后 部 署 网 络 。 当 网 络 中 的 所 有 节点 都 是 移动 的 . 
而 不 止 是 终端 时 ,我 们 还 需要 考虑 其 他 问题 。 我 们 将 在 4. 4. 2 节 讨 论 这 个 主题 。 

正如 很 多 技术 一 样 ， 移 动 性 支持 引发 了 增 量 部 署 问题 。 在 网 络 发 展 的 前 几 十 年 中 ， 因 
特 网 全 部 由 不 移动 的 节点 组 成 ， 而 且 假设 在 可 预见 的 未 来 有 很 多 路 由 器 和 主机 仍然 如 此 是 
很 合理 的 。 因 此 ， 移 动 解决 方案 需要 处 理 增 量 部 署 。 相 反 ，IPv6 可 以 在 一 开始 时 就 将 移 
动 性 作为 其 能 力 的 一 部 分 而 加 入 ， 从 而 具有 诸多 优势 。 

在 我 们 开始 探索 支持 移动 设备 的 方法 之 前 ， 需 要 澄清 几 点 。 通 常人 们 会 对 无 线 网 络 和 
移动 产生 混淆。 虽然 移动 和 无 线 因 为 显而易见 的 原因 通常 会 同时 出 现 ， 但 无 线 连 接 其 实 是 
在 没有 连 线 的 情况 下 从 A 到 B 获得 数据 ， 正 如 第 2 章 讨论 的 那样 。 这 里 移动 性 是 指 当 一 
个 节点 在 通信 过 程 中 移动 的 时 候 要 处 理 的 问题 。 当 然 很 多 使 用 无 线 信 道 的 节点 并 不 具有 移 
动 性 ， 且 有 时 移动 节点 会 使 用 有 线 通 信 (虽然 这 种 状况 不 一 定常 见 )。 

最 后 我 们 在 本 章 很 可 能 会 关注 称 为 网 络 层 移动 性 (network-layer mobility) 的 问题 ， 
也 就 是 关注 如 何 处 理 从 一 个 网 络 转移 到 另 一 个 网 络 的 节点 。 正 像 我 们 在 2.7 节 看 到 的 ， 对 
于 在 同一 个 802.11 网 络 中 从 一 个 接 人 点 转移 到 另 一 个 接 人 点 的 情况 ， 可 以 用 特定 于 
802. 11 的 机 制 处 理 ， 当 然 移 动 电 话 网 也 同样 能 解决 移动 性 问题 。 但 对 于 像 因 特 网 这 样 的 
异 构 系 统 ， 我 们 就 需要 对 更 广泛 网 络 间 的 移动 性 提供 支持 。 


4.4.2 路 由 到 移动 主机 (移动 IP) 

移动 IP 是 当前 互联 网 体系 结构 解决 移动 主机 分 组 路 由 的 基础 机 制 . 它 引 入 了 一 些 新 
功能 ， 但 不 需要 对 非 移 动 主机 和 大 多 数 路 由 器 做 任何 改变 ， 从 而 解决 之 前 提出 的 增 量 部 团 
问题 。 

移动 主机 是 假设 有 一 个 称 为 本 地 地 址 (home address) 的 永久 IP 地 址 ， 这 个 地 址 拥有 
与 它 的 本 地 网 络 (home network) 相同 的 网 络 前 级 。 其 他 主机 首先 发 送 分 组 给 移动 主机 时 
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使 用 这 个 地 址 。 因 为 这 个 地 址 不 会 改变 ， 所 以 在 主机 漫游 时 ， 长 期 运行 的 应 用 可 以 使 用 
它 。 我 们 可 以 将 之 看 作 主 机 的 长 期 标识 符 。 

当主 机 从 本 地 网 络 移动 到 一 个 新 的 外 地 网 络 时 ， 通 常会 使 用 类 似 DHCP 的 方式 获得 
一 个 新 的 网 络 地 址 . 这 个 地 址 在 主机 每 次 漫游 时 都 会 改变 ， 因 此 我 们 可 以 认为 它 更 像 是 
主机 定位 器 ， 但 重要 的 是 要 注意 主机 在 申请 一 个 外 地 网 络 的 新 IP 地 址 时 并 不 丢弃 其 本 地 
地 址 。 正 如 我 们 下 面 将 要 看 到 的 ， 本 地 地 址 决定 了 主机 在 移动 时 维持 通信 的 能 力 。 

虽然 大 部 分 路 由 器 保持 不 变 ， 但 支持 移动 性 需要 至 少 有 一 台 路 由 器 添加 一 些 新 的 功 
能 .这 人 台 路 由 器 称 作 移动 节点 的 本 地 代理 (home agent)， 位 于 移动 主机 的 本 地 网 络 。 在 
某 些 情况 下 还 需要 男 一 个 增强 功能 的 路 
由 器 作为 外 地 代理 (foreign agent). € 
位 于 移动 节点 离开 本 地 网 络 后 连接 到 的 
那个 网 络 。 我 们 先 考虑 使 用 外 地 代理 时 


= 发 送 主机 






外 地 代理 
(12.0.0.6 ) 





移动 IP 的 操作 。 一 个 具有 本 地 代理 和 外 aan 
地 代理 的 网 络 的 例子 如 图 4-27 所 示 。 本 地 网 络 动 主机 
本 地 代理 和 外 地 代理 周期 性 的 采用 MS ee 


关联 的 通知 信息 公布 其 存在 。 一 个 移动 图 4-27 移动 主机 和 移动 代理 
主机 也 会 在 关联 一 个 新 网 络 时 发 布 通知 信息 。 本 地 代理 所 发 的 通知 使 一 个 移动 主机 可 以 在 
离开 其 本 地 网 络 前 学 到 本 地 代理 的 地 址 信息 。 当 移动 主机 关联 到 一 个 外 地 网 络 时 ， 外 地 代 
理 则 联系 本 地 代理 .提供 转交 地 址 (care-of-address)。 这 个 地 址 通常 是 外 地 代理 的 IP 
地 址 。 

在 这 一 点 上 ， 我 们 可 以 看 到 ,任何 主机 试图 发 送 一 个 分 组 到 移动 主机 时 会 发 送 一 个 与 
该 节点 本 地 地 址 相同 的 目标 地 址 。 正 常 的 IP 转发 会 导致 分 组 到 达 移 动 节点 的 本 地 代理 所 
设 定 的 本 地 网 络 。 因 此 ， 我 们 可 以 将 传递 数据 分 组 到 移动 节点 问题 分 为 三 部 分 : 

1) 本 地 代理 如 何 截取 目标 为 移动 节点 的 分 组 ? 

2) 本 地 代理 如 何 传送 此 分 组 到 外 地 代理 ? 

3) 外 地 代理 如 何 将 此 分 组 传送 到 移动 节点 ? 

第 一 个 问题 可 能 比较 简单 ， 如 图 4-27 所 示 ， 本 地 代理 是 从 发 送 主机 到 内 部 网 络 的 唯 
一 途径 ， 所 以 一 定 能 收 到 以 移动 节点 为 日 标的 分 组 。 但 如 果 发 送 (通信 ) 节点 在 网 络 18， 
或 者 男 一 个 连接 到 网 络 18 的 路 由 器 试图 不 通过 本 地 代理 传送 分 组 呢 ?” 对 于 这 个 问题 ， 本 
地 代理 使 用 了 一 种 称 为 ARP 代理 (proxy) 的 技术 把 自己 模拟 为 移动 节点 。 除 了 本 地 代理 
在 ARP 消息 中 插入 移动 节点 的 IP 地 址 而 不 是 自己 的 地 址 以 外 ， 这 项 工作 很 像 在 3. 2. 6 节 
描述 的 地 址 解析 协议 (ARP) 。 由 于 使 用 自己 的 硬件 地 址 ， 所 有 同一 个 网 络 的 节点 需要 关 
联 移动 节点 的 IP 地 址 和 本 地 代理 的 硬件 地 址 。 这 个 过 程 中 微妙 的 是 事实 上 ARP 消息 可 能 
由 其 他 网 络 的 节点 缓存 。 为 确保 该 缓存 时 序 无 效 ， 当 移动 节点 在 外 地 代理 注册 的 同时 ， 本 
地 代理 发 送 了 一 个 ARP 消息 。 因 为 此 ARP 消息 并 不 是 通常 ARP 需求 的 响应 ， 所 以 称 为 
免费 〈gratuitous) ARP. 

第 二 个 问题 是 传送 截取 的 分 组 到 外 地 代理 。 这 里 使 用 的 是 在 3. 2.9 节 描 述 的 隧道 技 
术 。 本 地 代理 简单 地 封装 一 个 具有 目标 为 外 地 代理 的 IP 首部 的 分 组 且 分 发 到 互联 网 。 所 





S 由 于 DHCP 与 移动 IP 几乎 同时 开发 ， 所 以 原始 的 移动 IP 标准 不 需要 DHCP。 不 过 ， 今 天 DHCP 已 经 无 处 不 在 。 








有 途经 的 路 由 器 只 能 看 到 以 外 地 代理 的 IP 地 址 为 目标 的 IP 分 组 。 换 个 角度 看 ，IP 隧道 建 
立 在 本 地 代理 和 外 地 代理 之 间 ， 且 本 地 代理 只 将 目标 为 移动 节点 的 分 组 放 人 隧道 。 

当 一 个 分 组 最 终 抵达 外 地 代理 时 ， 被 封装 的 额外 IP 首部 被 去 除 而 露出 移动 节点 的 日 
标本 地 代理 的 IP 分 组 。 显 然 外 地 代理 不 能 处 理 旧 的 IP 分 组 ， 因 为 这 将 导致 分 组 被 发 送 回 
本 地 代理 。 外 地 代理 会 识别 出 已 注册 的 移动 节点 的 地 址 ， 然 后 转发 分 组 到 移动 节点 的 硬件 
Chard ware) 地 址 〈 比 如 以 太 网 地 址 ) 。 这 个 过 程 是 注册 过 程 的 一 部 分 。 

对 于 这 些 过 程 ， 可 以 看 到 的 一 种 情况 是 外 地 代理 和 移动 节点 被 放 在 一 起 。 移动 节点 本 
身 可 以 实现 外 地 代理 功能 。 此 时 移动 节点 必须 能 动态 申请 一 个 外 地 网 络 的 IP 地 址 (比如 
使 用 DHCP)。 此 地 址 被 作为 转交 地 址 使 用 。 在 本 例 中 ， 这 个 地 址 的 网 络 号 为 12。 此 种 方 
法 具有 人 允许 移动 节点 归属 于 没有 外 地 代理 的 网 络 的 良好 特性 。 因 此 ， 只 需 增 加 本 地 代理 和 
移动 节点 上 的 一 些 新 软件 就 可 以 获得 移动 性 〈 假 设 外 部 网 络 使 用 DHCP) 。 

那么 发 送 到 其 他 方向 的 流量 如 何 处 理 呢 (比如 由 移动 节点 到 固定 节点 )? 这 上 比 之 前 讨 
论 的 要 更 容易 。 移 动 节点 仅仅 在 IP 分 组 的 源 区 域 放 置 永久 地 址 ， 同 时 放置 固定 节点 的 IP 
地 址 到 目标 地 址 ， 则 分 组 即 可 转发 到 固定 节点 。 当 然 ， 如 果 两 个 节点 都 是 移动 的 ， 这 个 过 
程 在 单个 方向 上 分 别 采用 。 

1. 移动 IP 路 由 优化 

上 述 方法 有 一 个 重大 缺陷 : 从 相关 节点 到 移动 节点 的 路 由 明显 不 是 最 优 的 。 一 个 极端 
的 例子 是 当 一 个 移动 节点 和 发 送 节 点 在 同一 个 网 络 中 ,但 移动 节点 的 本 地 网 络 在 互联 网 远 
端的 情况 。 发 送 方 通 信 节 点 将 所 有 分 组 地 址 设 为 本 地 网 络 地 址 ， 这 些 分 组 需要 通过 互联 网 
到 达 本 地 代理 ， 然 后 通过 隧道 穿 过 互联 网 到 达 外 地 代理 。 如 果 通 信 节 点 可 以 确认 移动 节点 
在 同一 个 网 络 且 能 直接 传输 分 组 的 话 ， 这 样 显然 很 好 。 但 在 大 多 数 情况 下 ,目标 是 尽 可 能 
直接 地 从 通信 节点 而 不 通过 本 地 代理 传送 分 组 。 很 多 情况 下 这 被 认为 是 一 个 三 角 路 由 问题 
(triangle routing problem)， 因 为 从 通信 节点 通过 本 地 代理 到 移动 节点 经 过 了 一 个 三 角形 
的 两 条 边 ， 而 第 三 条 边 是 最 直接 的 途径 。 

解决 三 角 路 由 的 基本 思路 是 使 通信 节点 获取 移动 节点 的 转交 地 址 。 通 信 节 点 可 以 创建 
自己 的 通 向 外 地 代理 的 隧道 ， 且 这 被 认为 是 优化 解决 方法 。 如 果 发 送 者 安装 了 必要 的 软件 
来 学 习 转 交 地 址 并 创建 自己 的 隧道 ， 则 路 由 可 以 被 优化 。 反 之 ， 分 组 采用 次 优 的 路 由 。 

当 一 个 本 地 代理 看 到 一 个 分 组 且 此 分 组 目标 为 自己 支持 的 移动 节点 时 ， 本 地 代理 可 以 推 
断 出 发 送 者 是 否 采用 优化 路 由 。 因 此 ， 本 地 代理 除了 转发 数据 分 组 到 外 地 代理 外 ， 还 向 源 发 
送 “ 绑 定 更 新 ”消息 。 源 如 果 具 备 此 能 力 ， 则 使 用 此 绑 定 更 新 创建 一 条 绑 定 缓存 (binding 
cache) 记录 ， 其 中 存放 从 移动 节点 地 址 到 转发 地 址 的 映射 列表 。 下 次 这 个 源 要 发 送 数 据 分 组 
给 移动 节点 时 ， 就 能 从 缓存 中 找到 该 绑 定 上 且 通 过 隧道 直接 发 送 分 组 到 外 地 代理 。 

这 个 方案 存在 一 个 明显 的 问题 ， 就 是 当 移动 主机 转 到 新 网 络 的 时 候 ， 绑 定 缓存 可 能 过 
时 了 。 如 果 过 时 信息 被 利用 ， 外 地 代理 将 从 隧道 中 收 到 发 往 移 动 节点 的 分 组 ， 但 该 分 组 已 
不 在 此 网 络 注册 。 此 种 情况 下 ， 移 动 主机 将 发 送 一 个 绑 定 警告 (binding warning) 消息 给 
发 送 者 并 告知 其 不 再 使 用 此 缓存 记录 。 这 个 方案 只 在 外 地 代理 不 是 移动 节点 本 身 时 使 用 . 
所 以 ， 缓 存 记录 需要 在 一 段 时 间 后 删除 ， 确 切 的 时 间 长 度 在 绑 定 更 新 消息 中 提供 。 

如 上 所 述 ， 移 动 路 由 提出 了 一 些 有 趣 的 安全 挑战 ， 现 在 我 们 已 经 看 到 移动 IP 是 如 何 
工作 的 ， 这 些 挑战 变 得 更 清晰 了 。 比 如 ， 一 个 攻击 者 希望 截取 发 送 到 互联 网 其 他 节点 的 分 
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组 时 ， 可 能 以 自己 是 该 节点 新 外 地 代理 的 身份 联系 该 节点 的 本 地 代理 。 因 此 ， 很 明显 这 里 
需要 一 些 认证 机 制 . 我们 将 在 第 8 章 中 讨论 该 机 制 。 

2. IPv6 的 移动 性 

IPv4 和 IPv6 对 移动 性 的 支持 存在 很 大 差别 。 最 重要 的 是 ， 可 以 从 头 开始 在 IPv6 标准 
中 创建 移动 性 支持 ， 这 减轻 了 一 部 分 增 量 部 署 问题 〈 或 者 更 准确 地 说 ，IPv6 是 一 个 大 增 
量 部 署 问题 ， 如 果 得 到 解决 ， 则 可 将 移动 支持 作为 分 组 的 一 部 分 )。 

由 于 具有 IPv6 功能 的 主机 在 接 入 外 地 网 络 时 可 以 获得 一 个 地 址 (采用 IPv6 内 核 规 范 
中 定义 的 多 种 机 制 )， 所 以 移动 IPv6 去 除了 外 地 代理 且 使 得 每 台 主 机 具备 扮演 外 地 代理 角 
色 的 能 力 。 

IPv6 作为 移动 IP 的 另 一 个 有 趣 方面 是 包含 了 一 组 灵活 的 扩展 首部 ， 正 如 在 4.1. 3 节 
介绍 的 那样 。 这 可 用 于 上 述 优化 路 由 的 场景 中 。 不 同 于 通过 转交 地 址 建立 隧道 将 分 组 发 送 
到 移动 节点 ，IPv6 可 以 通过 包含 在 路 由 首部 的 本 地 地 址 发 送 IP 分 组 到 转发 地 址 。 这 个 首 
部 会 被 中 间 节 点 忽略 ， 但 移动 节点 会 把 分 组 当 作 发 送 给 本 地 地 址 一 样 来 处 理 ， 可 继续 用 固 
定 IP 来 传递 给 高 层 协议 。 采 用 扩展 首部 而 不 是 隧道 技术 可 以 使 带宽 占用 和 处 理 更 经 济 。 

最 后 . 我 们 介绍 一 些 移动 网 络 中 的 开放 性 问题 。 移 动 设备 的 电源 消耗 管理 越 来 越 重 
要 ,这样 具 有 有 限 电量 且 体 积 更 小 的 设备 才能 被 制造 出 来 。 移 动 自 组 (ad hoc) 网 也 存在 
很 多 特殊 挑战 〈 见 相关 主题 )， 这 种 网 络 在 没有 任何 固定 节点 时 使 一 组 移动 节点 组 成 网 络 。 
还 有 一 些 移动 网 络 、 传 感 器 网 络 (sensor network) 类 的 挑战 曾 在 以 前 提起 过 。 传 感 器 一 
般 体积 小 、 昂 贵 且 由 电池 供电 ， 这 意味 着 需要 考虑 很 多 低能 耗 和 有 限 处 理 能 力 的 问题 。 另 
外 ， 既 然 无 线 通 信和 移动 性 通常 会 齐头并进 ， 持 续 的 无 线 技术 发 展 将 使 移动 网 络 产 生 新 的 
挑战 和 机 会 。 


相关 主题 

移动 自 组 网 

本 节 的 大 部 分 篇 幅 中 会 假设 只 有 终端 节点 (CEM) 是 移动 的 ， 这 可 以 和 当今 网 络 中 我 
们 处 理 的 大 部 分 情况 吻合 。 我 们 的 笔记 本 电脑 和 手机 四 处 移动 且 和 固定 的 网 络 设施 相 连 
接 ， 比 如 通过 固定 链 路 连接 到 互联 网 骨干 网 的 发 射 塔 和 802.11 接 入 点 。 然 而 ， 很 多 现代 
路 由 器 做 得 很 小 且 足 以 移动 ， 可 以 用 在 移动 网 络 环境 ， 比 如 在 移动 车 辆 之 间 构 建 网 络 。 因 
为 路 由 协议 是 动态 的 ， 所 以 可 以 想象 移动 路 由 不 应 成 为 问题 ， 而 且 这 大 致 是 正确 的 。 然 
而 ， 如 果 所 有 或 者 大 部 分 网 络 节点 都 是 移动 的 呢 ? 极端 逻辑 下 ， 存 在 一 个 完全 没有 固定 设 
施 的 网 络 ， 只 有 一 些 移动 节点 ， 其 中 一 些 或 全 部 用 作 路 由 器 。 标 准 的 路 由 协议 能 在 这 样 的 
环境 下 工作 吗 ? 

这 种 没有 固定 设施 且 所 有 设备 都 是 移动 的 环境 被 命名 为 移动 自 组 网 (MANET 是 解决 
该 问题 的 IETF 工作 组 的 名 字 )。 为 了 理解 为 什么 移动 自 组 网 需要 特殊 的 解决 方案 ， 我 们 
可 以 想象 以 下 状况 : 不 像 固定 网 络 ， 任 何 给 定 的 自 组 网 路 由 器 的 邻居 因为 节点 移动 而 经 常 
变化 。 既 然 任何 邻居 关系 变化 都 需要 一 个 路 由 协议 消息 发 送 并 计算 新 的 路 由 表 ， 因 此 很 容 
易 发 现 必 须 考 虑 使 用 一 个 对 环境 没有 优化 的 协议 。 加 剧 这 个 问题 的 事实 是 通信 是 无 线 的 ， 
要 消耗 电量 ， 而 且 很 多 移动 设备 可 能 会 耗 尺 电 池 电 量 。 链 接 带宽 可 能 也 是 有 限 的 。 因 此 ， 
减少 发 送 路 由 协议 消息 以 及 重新 洪 泛 给 所 有 邻居 引起 的 开销 是 自 组 路 由 需 考虑 的 关键 
问题 。 








在 撰写 本 书 的 时 候 ， 很 多 移动 自 组 网 的 优化 路 由 方法 被 提出 。 这 些 方法 可 以 分 为 被 动 
方法 和 主动 方法 。 优 化 链 路 状态 路 由 (Optimized Link State Rount, OLSR) # #4 i = 
动 方法 ， 且 通过 其 名 字 能 够 感觉 出 它 的 内 容 。OLSR 将 传统 链接 状态 协议 (如 OSPF. 
3.3.37) 和 很 多 减少 洪 泛 路 由 消息 的 优化 方法 组 合 在 一 起 。 被 动 协议 包括 自 组 织 按 需 距 
离 向 量 (Ad Hoc On-Demand Distance Vector, AODV) 和 动态 按 需 移动 自 组 网 (Dynamic 
MANET On Demand, DYMO)， 两 者 都 是 基于 3.3.2 节 介绍 的 距离 向 量 协议 。 这 些 方法 
专注 于 仅 在 需要 时 才 建 立 路 由 来 减少 路 由 协议 开销 总 量 ， 比 如 当 一 个 给 定 节点 向 特定 目的 
地 发 送 消息 时 。 有 丰富 的 解决 方案 空间 可 供 人 们 权衡 选择 ， 而 且 这 个 空间 处 于 持续 的 探索 
当中 。 





4.5 人 小结 


本 草 的 主题 是 处 理 因 特 网 的 持续 增长 问题 。 因 特 网 持续 连接 更 多 的 用 户 ， 且 每 个 用 户 
发 送 更 多 的 应 用 流量 〈 如 视频 流 等 )， 因 此 需要 更 多 带宽 。 虽 然 因 特 网 被 证 明 是 一 个 具有 
很 强 扩展 性 的 系统 ， 但 新 的 可 扩展 性 问题 也 持续 地 需要 解决 方案 。 除 了 可 扩展 性 ,因特网 
还 需要 不 断 进化 来 支持 新 的 能 力 和 服务 。 

当前 主要 的 扩展 性 问题 是 地 址 空间 的 有 效 使 用 和 路 由 表 随 互联 网 增长 而 增长 的 问题 : 
层次 化 IP 地 址 格式 ， 包 括 网 络 部 分 和 主机 部 分 ， 为 我 们 管理 可 扩展 性 提供 了 一 个 层次 。 
路 由 区 则 提供 了 另外 一 个 层次 。 自 治 系统 允许 我 们 将 路 由 问题 划分 为 两 个 部 分 ， 域 内 路 由 
和 域 间 路 由 ， 每 一 种 路 由 都 比 总 体 的 路 由 问题 小 很 多 。 因 特 网 的 域 间 路 由 协议 BGP 在 处 
理 因 特 网 增长 方面 取得 了 极 大 的 成 功 。 

尽管 采用 了 多 个 步 又 来 扩展 IPv4， 但 显然 很 快 就 需要 一 个 新 的 更 长 的 地 址 格式 。 这 需 
要 新 的 IP 数据 报 格式 和 一 个 新 的 协议 。 新 协议 被 命名 为 I Pv6， 开始 时 被 称 为 下 一 代 IP 
(IPng)。IPv6 提供 128 位 地 址 ， 且 具有 基本 类 似 CIDR 的 寻 址 和 路 由 方法 。 虽 然 IPv6 发 
布 了 诸多 新 能 力 ， 但 其 主要 优势 在 于 支持 超大 数量 可 寻 址 设备 。 

最 后 ， 因 特 网 不 但 要 解决 可 扩展 性 问题 ， 还 需要 功能 方面 的 进化 。 在 这 方面 ,我 们 看 
到 原始 IP 数据 报 模型 上 三 个 方面 的 增强 。 首 先是 多 播 ， 使 同一 组 数据 可 以 高 效 地 传输 给 
一 组 接收 者 。 正 如 单 播 一 样 ， 多 播 面临 的 很 多 挑战 都 与 可 扩展 性 相关 ， 人 们 开发 了 大 量 不 
同 协议 和 多 播 模 型 . 用 以 优化 不 同 环境 下 的 扩展 性 及 路 由 。 第 二 是 MPLS， 将 虚 电路 网 络 
中 的 一 些 理 念 引入 IP 且 广 泛 应 用 于 扩展 IP 能 力 。MPLS 的 应 用 范围 窗 盖 了 从 流量 工程 到 
支持 因特网 上 的 虚拟 专用 网 等 。 最 后 是 移动 性 支持 ， 这 个 特性 与 最 初 IP 设计 者 的 想法 相 
去 甚 远 ， 但 这 个 特性 随 着 可 移动 联网 设备 (包括 主机 和 路 由 器 ) 的 增多 而 变 得 越 来 越 
重要 。 


接 下 来 会 发 生 什么 : 部 署 IPv6 


自从 IPv4 地 址 空间 不 足 变 得 非常 严重 以 至 于 需要 一 个 新 版 的 IP 以 来 , 已 经 过 去 了 大 
约 20 年 的 时 间 。 最 初 的 IPv6 规范 也 存在 了 超过 15 年 。 现 在 有 很 多 支持 IPv6 的 主机 操作 
系统 ， 并 且 主 要 的 路 由 器 生产 商 也 在 他 们 的 产品 中 对 IPv6 提供 不 同 程度 的 支持 。 至 写本 
书 时 止 ，IPv6 还 没有 在 因特网 上 进行 真正 意义 的 部 署 。 什 么 时 候 开 始 进行 实 实在 在 的 部 
署 以 及 由 什么 原因 引发 这 种 部 署 ， 这 是 值得 人 们 关注 的 。 
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IPv6 并 不 那么 急需 的 原因 之 一 是 NAT (网 络 地 址 转换 ， 本 章 前 面 有 所 描述 ) 的 广泛 
使 用 。 因 为 提供 商 将 Pv 地 址 看 作 稀有 资源 ， 所 以 只 将 很 少 的 一 部 分 分 配给 用 户 ， 或 者 
按 使 用 的 地 址 数量 收费 ; 客户 的 很 多 设备 被 隐藏 到 NAT 设备 之 后 ， 只 使 用 一 个 IPv4 地 
址 。 例 如 .这 就 像 有 多 个 使 用 IP 地 址 的 设备 的 家 庭 网 络 ， 在 网 络 中 使 用 某 种 NAT 来 节约 
地 址 。 因 此 ， 可 能 促使 部 署 IPv6 的 一 个 因素 是 那些 使 用 NAT 时 不 能 很 好 工作 的 应 用 。 对 
于 客户 端 -服务 器 应 用 ， 当 客户 地 址 隐藏 在 NAT 盒 之 后 工作 得 非常 好 ， 而 对 等 应 用 则 稍 差 
一 些 。 例 如 ， 多 人 游戏 和 IP 电话 就 是 不 使 用 NAT 可 以 工作 得 更 好 ， 并 因此 从 更 宽松 的 地 
址 分 配 策略 中 受益 的 应 用 实例 。 然 而 ， 即 使 这 些 应 用 已 经 可 以 不 使 用 NAT, 但 NAT 技术 
已 广泛 存在 。 

近 些 年 来 ， 获 得 成 块 的 IPv4 地 址 已 经 变 得 更 加 困难 ， 特 别 是 在 美国 以 外 的 其 他 国家 
尤为 明显 。 随 着 困难 变 得 越 来 越 大 ， 提 供 商 为 客户 提供 IPv6 地 址 的 动机 也 随 之 出 现 。 同 
时 ， 对 于 现 有 的 提供 商 来 说 ， 提 供 IPv6 是 很 大 的 附加 开销 ， 因 为 当 他 们 开始 提供 IPv6 时 
并 不 能 终止 对 IPv4 的 支持 。 这 就 意味 着 提供 商 路 由 表 的 尺寸 可 能 会 增长 ， 因 为 它们 必须 
携带 所 有 现 有 的 IPv4 MR. EIE IPv6 前 级 。 

现在 ，IPv6 的 部 署 几 乎 只 发 生 在 研究 性 网 络 上 。 一 小 部 分 服务 提供 商 开 始 提供 IPv6 
(通常 带 有 一 些 政府 行为 的 动机 )， 特 别 是 在 美国 以 外 。 商 业 路 由 器 和 主机 操作 系统 不 同 程 
度 地 支持 IPv6。 可 以 肯定 ，IPv6 的 部 署 会 加 快 ， 但 似乎 很 可 能 绝 大 多 数 主机 和 网 络 将 至 
少 在 很 多 年 中 都 只 运行 IPv4。 


扩展 阅读 


由 Bradner 和 Mankin 撰写 的 RFC 是 扩展 阅读 的 首选 ， 它 综述 了 高 速 增 长 的 因特网 如 
何 对 原 有 体系 结构 的 扩展 能 力 施 压 ， 并 最 终 产 生 了 IPv6, Paxson 的 文章 描述 了 路 由 器 在 
因特网 上 的 行为 研究 ， BREF 15 年 之 前 ， 但 该 文章 仍然 被 高 频率 地 引用 且 给 出 了 很 好 
的 研究 人 员 如 何 学 习 因 特 网 动态 行为 的 例子 。 最 后 一 篇 文章 讨论 多 播 ， 解释 了 MBone 上 
最 初 使 用 的 多 播 方 法 。 
e Bradner, S. , and A. Mankin. The recommendation for the next generation IP pro- 
tocol. Request for Comments 1752, January 1995. 
e Paxson, V. End-to-end routing behavior in the Internet. SIGCOMM'96, pages 25- 
38, August 1996. 
e Deering, S., and D. Cheriton. Multicast routing in datagram internetworks and ex- 
tended LANS. ACM Transactions on Computer Systems 8 (2); 85-110, 
May 1990. 
- 些 有 趣 的 关于 因特网 路 由 行为 的 实验 研究 在 Labovitz 等 [LAAJ00] 进行 了 解释 。 
男 外 一 些 关 于 BGP 稳定 性 的 有 用 文章 可 见 Gao 和 Rexford [GRO1] . 
IPv6 相关 的 RFC 集合 可 见 Bradner 和 Mankin [BM95], 一些 新 的 IPv6 规范 可 见 
Deering 和 Hinden [DH98]， 还 有 很 多 其 他 的 IPv6 相关 RFC, 
协议 无 关 多 播 (PIM) 在 Deering 4 [DEF+ 96] 和 Fenner 等 [FHHK06] 进行 了 描 
述 ，PIM-SSM 在 [LBha03]」 进 行 了 描述 。[ Wil00] 和 [HC99] 都 是 很 好 的 介绍 多 播 历史 
细节 的 读物 。 
MPLS 相关 协议 和 开发 可 参考 Chandranmenon 等 [CV95]、Rekhter 等 [RDR+97] 和 
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Davie 等 [DR00]。 后 面 的 文献 描述 了 MPLS 的 一 些 应 用 ， 如 流量 工程 、 网 络 故障 的 快速 
恢复 以 及 虚拟 专用 网 等 。[RR06] 提供 了 MPLS/BGP VPN 的 规范 ， 它 是 MPLS 网 络 上 能 
够 提供 的 第 三 层 VPN 的 一 种 形式 。 

最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 

http://www. isoc. org/internet/history/; 一 个 与 互联 网 历史 相关 的 链接 集合 ， 包 括 
最 初 构建 互联 网 的 研究 人 员 写 的 文章 。 

http://bgp. potaroo. net/: 许多 互联 网 路 由 表 增 长 数据 ， 包 括 IPv6 WE. 





习题 
1. 如 图 4-28 所 示 ， 网 络 中 水 平 线 表示 传输 提供 商 ， 几 条 垂直 线 为 提供 商 之 间 的 链接 。 
(a) 提供 商 Q 的 BGP 代言 人 可 收 到 几 条 到 P 
的 路 由 ? je 提供 者 P 
Cb) 假设 Q 和 了 采用 的 策略 是 将 输出 流量 路 由 ! ”提供 者 Q 2| | 
至 最 接近 目标 提供 商 的 链接 ， 以 此 实现 最 a : 
小 化 开销 。 那 么 从 主机 A 到 主机 B 和 从 主 B 提供 者 R 
机 也 到 主机 A， 分 别 会 采用 哪 条 路 径 ? 图 4-28 习题 1 的 网 络 


(c) 为 使 Bo A 的 传输 使 用 更 近 的 链 路 1，Q 应 如 何 做 ? 
(d) 为 使 BA 的 传输 经 过 R，Q 应 如 何 做 ? 

2. 给 出 一 个 将 路 由 器 组 成 自治 系统 的 例子 ,使 从 A 点 到 B 点 的 最 少 跳 路 径 通 过 同一 个 AS 两 次 。 解 释 
BGP 此 时 该 如 何 做 。 

«3. 令 A 为 因特网 中 的 自治 系统 的 数 日 , D (直径 ) 为 AS 路 径 长 度 的 最 大 值 。 

(a) 分 别 给 出 DD 为 logA MAVA 阶 时 的 连通 性 模型 。 
b) 假设 每 个 AS 号 为 2 字 节 ， 每 个 网 络 号 为 4 字 节 ， 试 估计 一 个 BGP 代言 人 为 了 解 到 每 个 网 络 的 
AS 路 径 而 必须 接收 的 数据 量 。 将 答案 表示 为 A、D 和 网 络 数 N 的 表达 式 。 

4. 为 IPv6 提出 一 个 合理 超 位 数 运 行 的 方案 。 尤 其 是 提供 如 图 4- 11 所 示 的 数据 报 ， 可 具有 额外 的 ID F 
段 ， 使 之 可 多 于 128 位 ， 同 时 可 调整 各 个 字段 的 尺寸 。 你 可 以 假设 字段 按 字 节 边 缘 划 分 ， 且 InterfaceID 
是 64 位 . (提示 : 可 认为 字段 只 有 在 异常 情况 下 才 会 以 最 大 空间 分 配 ) 。 如 果 InterfaceID 是 48 位 呢 ? 

5. 假设 P、Q 和 R 是 网 络 服务 提供 商 ,， 各 自 的 CIDR 地 址 分 别 为 C1. 0.0.0/8、C2. 0.0. 0/8 和 C3. 0.0.078. 
每 个 提供 商 的 客户 最 初 接收 的 地 址 分 配 是 提供 商 地 址 的 一 个 子 集 。P 有 如 下 客户 : 

PA, 分配 地 址 C1. A3. 0.0/16 
PB， 分 配 地 址 C1. Bo. 0. 0/12 
Q 有 如 下 客户 : 
QA， 分 配 地 址 C2. 0A. 10. 0/20 
QB， 分 配 地 址 C2. 0B. 0. 0/16 
假设 没有 其 他 提供 商 和 客户 。 
(a) 给 出 P、Q 和 R 的 路 由 表 ， 假设 每 个 提供 商都 和 另外 两 个 提供 商 连 接 。 
(b) 现在 假设 P 连接 Q，Q 连接 R, 但 P 和 RR 不 直接 连接 。 给 出 P 和 R 的 路 由 表 。 
O 假设 除 现 有 链 路 外 ， 客 户 PA 需要 一 条 到 达 Q 的 直接 链 路 ， 且 QA 需要 一 条 到 达 了 的 直接 链 路 ， 
给 出 P 和 Q 的 路 由 表 ， 忽 略 R。 

6. 上 一 道 题目 中 ， 假 设 每 个 提供 商都 与 另外 两 个 连接 。 假 设 客户 PA 转 到 提供 商 Q 且 客 户 QB 转 到 提供 
商 R。 应 用 CIDR 最 长 匹配 规则 给 出 路 由 表 ， 使 所 有 三 个 提供 商 允 许 PA 和 QB 交换 且 无 需 重 编号 。 

7. 假设 大 部 分 因特网 使 用 某 种 形式 的 地 理 编 址 ， 但 一 个 大 型 国际 组 织 拥 有 一 个 IP 网 络 地 址 且 在 自己 的 
链 路 中 路 由 内 部 流量 。 
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10. 


* Il. 


12. 


13. 


l4. 


v 15. 


(a) 解释 该 组 织 在 此 种 状况 下 输入 流量 路 由 的 低 效 性 。 

Cb) 解释 如 何 解决 输出 流量 问题 。 

Co) 用 解决 问题 Cb) 的 方法 解决 输入 流量 ， 会 发 生 什么 ? 

Cd) 假设 该 组 织 将 各 地 办 公 室 的 地 址 更 换 为 分 离 的 地 理 地 址 ， 如 果 仍 需要 在 组 织 内 路 由 内 部 流量 的 
话 ， 他 们 的 内 部 路 由 体系 结构 必须 是 怎样 的 ? 


. 电话 系统 使 用 地 理 编 址 。 解 释 你 不 认为 这 是 理所当然 的 因特网 体系 结构 的 原因 。 
. 假设 一 个 小 ISP X 向 大 ISP A 付费 以 接 入 因特网 ， 同 时 从 另 一 个 ISP B 处 购买 了 备用 链 路 以 便 在 与 A 


的 链接 断 开 时 使 用 。 如 果 X 通过 ISP A 学 习 到 通 往 一 些 前 级 的 路 径 ， 需 要 将 这 些 路 径 通知 B 吗 ? 为 

PA? 

假设 站 点 A 是 多 连接 的 (multihomed)， 它 有 从 不 同 的 提供 商 P 和 Q 到 因特网 的 两 个 连接 。 使 用 习题 

5 中 的 基于 提供 商 的 编 址 方法 ， 且 A 从 了 得 到 其 地 址 分 配 。Q 有 一 条 A 的 CIDR 最 长 匹配 路 由 记录 。 

(a) 描述 哪些 输入 流量 流入 A-Q 连接 。 考 虑 Q 使 用 BGP A 和 不 将 A 向 全 网 通知 的 情况 。 

(b) 如 果 P-A 链 路 出 现 故障 ,为 使 所 有 输入 流量 都 能 经 Q 到 达 A，Q 必须 向 A 至 少 通知 哪些 路 由 ? 

Co) 如 果 A 使 用 这 两 条 链 路 来 传送 输出 流量 ， 必 须 克服 哪些 问题 ? 

假设 在 一 个 大 型 组 织 A 中 的 网 络 N， 除 了 现 有 的 经 A 的 连接 外 ， 还 有 它 自己 的 到 因特网 服务 提供 商 

的 直接 连接 。 设 RI 为 连接 N 到 其 提供 商 的 路 由 器 ，R2 为 连接 N 到 A 的 其 余部 分 的 路 由 器 。 

(a) 假设 N 仍 是 A 的 子 网 RI 和 R2 应 如 何 配 置 ? 对 于 N 使 用 它 自己 的 独立 连接 ， 仍 将 存在 什么 限 
制 ? A 不 能 使 用 N 的 连接 吗 ? 说 明 你 的 配置 ， 包括 Rl1 和 R2 应 通知 什么 ， 以 及 使 用 哪些 路 径 进 
行 通知 。 假 设 可 使 用 像 BGP 这 样 的 机 制 。 

(b) 现在 假设 N 有 自己 的 网 络 号 ， 你 在 (a) 中 得 出 的 答案 将 如 何 变化 ? 

(co) 描述 当 A 自己 的 链 路 发 生 故 障 后 ， 人 允许 它 使 用 N 的 链 路 的 一 台 路 由 器 配置 。 

路 由 器 如 何 确 定 接收 到 的 IP 分 组 为 多 播 ? 针对 IPv4 和 IPv6 给 出 答案 。 

假设 一 个 多 播 组 希望 被 一 个 特定 多 播 域 隐藏 ， 那 么 一 个 被 指派 到 该 组 的 IP 多 播 地 址 如 何 能 够 在 没有 

与 其 他 多 播 域 协商 的 情况 下 避免 冲突 ? 

在 何 种 情况 下 一 台 非 路 由 器 主机 在 以 太 网 上 可 以 从 未 加 入 的 多 播 组 接收 IP 多 播 分 组 ? 

考虑 如 图 4-29 所 示 的 因特网 的 例子 ， 其 中 源 主机 D 和 下 向 多 播 组 G 发 送 分 组 ， 除 3D ALE HA EBL 

全 部 是 组 G 的 成 员 。 给 出 每 个 源 的 最 短路 径 多 播 树 。 
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图 4-29 习题 15 的 示例 网 络 
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. 考虑 如 图 4-30 所 示 的 因特网 的 例子 ， 其 中 源 主机 Sl 和 S2 向 多 播 组 G 发 送 分 组 ， 除 了 SI 和 S2 其 余 
主机 全 部 是 组 G 的 成 员 。 给 出 每 个 源 的 最 短路 径 多 播 树 . 
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图 4-30 习题 16 的 示例 网 络 


. 假设 主机 A 正在 向 一 个 多 播 组 发 送 消息 。 接 收 方 是 以 A 为 根 的 树 上 的 叶子 节点 ， 树 的 深度 为 NA， 且 
每 个 非 叶 子 节点 有 上 个 子女 ， 因 此 有 kN 个 接收 方 。 
(a) 如 果 A 向 所 有 接收 方 发送 一 条 多 播 消息 ,会 涉及 多 少 条 独立 的 链 路 传输 ? 
(b) 如 果 A 向 每 个 接收 方 发 送 单 播 消息 ,会 涉及 多 少 条 独立 的 链 路 传输 ? 
(c) 假设 A 向 所 有 接收 方 发 送 ， 但 是 有 一 些 消息 丢失 且 需 要 重 传 。 仅 考虑 链 路 芋 传 方面 ， 回 接 收 方 
哪 部 分 的 单 播 重 传 等 价 于 向 所 有 接收 方 的 一 次 多 播 重 传 ? 
. 现 有 的 因特网 在 很 大 程度 上 依赖 于 参与 者 成 为 高 素质 的 “网 络 公民 ” 共同 坚持 操作 所 有 甚至 更 
多 的 标准 协议 。 
(a) 在 PIM-SM 方案 中 ， 谁 决定 什么 时 候 创建 特定 源 的 树 ” 这 在 什么 情况 下 出 现 问 题 ? 
(b) 在 PIM-SMM 方案 中 ， 谁 决定 什么 时 候 创建 特定 源 的 树 ?” 为 什么 可 以 假设 不 存在 这 个 问题 ? 
(a) 画 一 个 互联 网 的 例子 ， 在 该 网 络 中 从 一 个 源 路 由 器 到 组 成 员 路 由 器 的 BIDIR-PIM 路 由 的 长 度 比 
PIM-SM 特定 源 的 路 由 要 长 。 
(b) 画 一 个 两 种 路 由 相同 的 例子 。 
. 判断 以 下 IPv6 地 址 的 表示 是 否 正确 。 
(a) ::0F53:6382:AB00:67DB:BB27:7332。 
(b) 7803:42F2:::88EC:D4BA:B75D:11CD。 
(c) ::4BA8:95CC::DB97:4EAB。 
(d) 74DC::02BA。 
(e) ::00FF:128. 112. 92. 116, 
. MPLS 标签 一 般 长 20 位 。 请 解释 当 MPLS 用 于 基于 目的 地 址 的 转发 时 ， 为 什么 这 个 长 度 能 提供 足够 
的 标签 。 
. MPLS 有 了 时 被 认为 改进 了 路 由 器 的 性 能 。 请 解释 为 什么 ， 以 及 为 什么 实际 中 可 能 不 是 这 样 。 
. 假设 每 个 MPLS 标签 占 32 位 ， 并 作为 图 4-20b 中 曾 使 用 过 的 “ 疫 ” 首 部 添加 到 一 个 分 组 中 
(a) 通过 隧道 传送 分 组 时 ， 如 果 使 用 4. 3. 3 节 描 述 的 MPLS 技术 ， 笛 要 多 少 附加 字 节 ? 
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Cb) 通过 隧道 传送 分 组 时 ， 如 果 使 用 3. 2.9 节 描 述 的 附加 IP 首部 ， 最 少 需要 多 少 附 加 字 节 ? 
Co) 当 平 均 分 组 长 度 为 300 字 节 和 64 字 节 时 ， 分 别 计算 如 上 两 种 方法 的 带宽 利用 率 。 带 宽 利 用 率 定 
义 为 〈 传 送 的 有 效 载 荷 字 节 数 ) + (传送 的 总 字 节 数 )。 


24. RFC791 描述 了 IP 协议， 并 包括 源 路 由 的 两 个 选项 。 请 说 出 与 使 用 MPLS 的 显 式 路 由 相 比 ， 使 用 IP 


源 路 由 选项 的 三 个 缺点 。( 提 示 : 包括 选项 的 IP 首部 可 能 最 多 15 个 字 长 。) 


25. DHCP 允许 计算 机 在 任意 时 刻 移动 到 新 的 子 网 时 请 求 一 个 新 的 IP 地 址 。 为 什么 这 样 无 法 满足 移动 主 


机 的 通信 需求 ? 


26. 请 求 将 传送 到 一 个 移动 节点 的 流量 先 发 送 给 本 地 代理 的 主要 缺点 是 什么 ? 


. 移动 IP 允许 本 地 代理 通知 相关 通信 节点 一 个 移动 节点 的 新 的 转交 地 址 。 如 何 利用 此 机 制 盗 取 流量 ? 
如 何 将 之 用 于 执行 对 其 他 节点 的 一 次 洪 泛 流量 攻击 ? 
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胜利 是 美丽 灿烂 的 花 条 。 运 输 是 枝 干 ， 没 有 它 胜 利之 花 是 不 会 开放 的 。 
— BR > LER 


问题 : 进程 间 如 何 通信 

前 面 三 章 描述 了 可 用 于 把 多 台 计 算 机 连接 在 一 起 的 各 种 技术 ， 从 简单 的 以 太 网 和 无 线 
网 到 覆盖 全 球 的 互联 网 。 下 面 要 考虑 的 问题 是 从 这 种 主机 到 主机 的 分 组 传递 服务 转向 进程 
到 进程 的 通信 信道 ， 这 正 是 网 络 体系 结构 中 传输 (transport) 层 的 任务 ， 由 于 它 支持 在 终 
端 节点 上 运行 的 应 用 程序 之 间 的 通信 ， 因 此 传输 层 协 议 有 时 也 称 为 端 到 端 (end-to-end) 
协议 。 

两 种 因素 促成 了 端 到 端 协议 的 形成 。 从 其 上 层 看 ， 需 要 使 用 传输 层 服务 的 应 用 层 进程 
有 一 些 特定 的 需求 。 下 面 列 出 了 上 层 协议 希望 传输 层 能 提供 的 一 些 常 用 的 特性 : 
确保 消息 成 功 传输 。 
消息 按 序 传 输 。 
最 多 传送 每 个 消息 的 一 个 副本 。 
支持 任意 大 的 消息 。 
支持 发 送 方 与 接收 方 之 间 的 同步 。 
允许 接收 方 对 发 送 方 进行 流量 控制 。 
支持 每 台 主 机 上 的 多 个 应 用 进程 。 

注意 ， 这 个 列表 并 没有 包括 应 用 进程 要 求 网 络 提供 的 全 部 功能 。 例如， 没有 包括 诸如 
身份 验证 或 加 密 这 类 通常 由 传输 层 之 上 的 协议 来 提供 的 安全 特性 。 

从 其 下 层 看 ， 传 输 层 协议 赖 以 运行 的 下 层 网 络 所 能 提供 的 服务 能 力 有 某 些 限制 。 其 中 
比较 典型 的 是 下 层 网 络 可 能 会 : 

。 ERKE. 

。 使 消息 乱 序 。 

。 传送 一 个 消息 的 多 个 副本 。 

。 限制 消息 的 大 小 。 

。 在 任意 长 延迟 后 才 发 送 消息 。 

这 样 的 网 络 称 为 是 提供 尽力 而 为 (best-effort) 的 服务 ， 因 特 网 就 是 这 种 网 络 的 一 个 
实例 。 

因此 ， 问 题 的 关键 是 设计 出 各 种 算法 ， 把 下 层 网 络 低 于 要 求 的 特性 转变 成 应 用 程序 所 
需 的 高 级 服务 。 不 同 的 传输 层 协议 应 用 这 些 算法 的 不 同 组 合 。 本 章 在 以 下 四 种 有 代表 性 的 
服务 环境 中 考察 这 些 算 法 : 简单 异步 多 路 分 解 服务 、 可 靠 字 节 流 服务 、 请 求 / 应 答 服 务 和 
用 于 实时 应 用 的 服务 。 

对 于 多 路 分 解 服务 和 字 节 流 服务 ， 分 别 以 因特网 中 的 用 户 数据 报 协议 (User Data- 
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gram Protocol, UDP) 和 传输 控制 协议 (Transmission Control Protocol, TCP) 为 例 来 
阐述 在 实际 应 用 中 如 何 提供 这 些 服务 。 对 于 请 求 / 应 答 服务 ,我们 讨论 它 在 远程 过 程 调用 
(Remote Procedure Call. RPC) 服务 中 的 作用 及 其 特征 ， 讨 论 将 围绕 着 两 个 广泛 使 用 的 
RPC 协议 SunRPC 和 DCE-RPC 来 展开 。 

实时 应 用 对 传输 层 有 特定 的 需求 ， 例 如 要 求 音频 或 视频 能 够 及 时 播放 . 我们 将 关注 该 
类 应 用 对 传输 层 协议 的 要 求 ， 以 及 广泛 用 于 该 目的 的 协议 : 实时 传输 协议 (Real-time 
Transport Protocol. RTP). 


5.1 简单 多 路 分 解 (UDP) 


可 能 的 最 简单 的 传输 协议 是 把 下 层 网 络 的 主机 到 主机 的 传递 服务 扩展 到 进程 到 进程 
的 通信 服务 。 任 何 主机 上 都 可 能 运行 多 个 进程 ， 因 此 该 协议 至 少 需要 增加 一 个 多 路 分 解 
功能 ， 以 便 每 台 主 机 上 的 多 个 进程 能 够 共享 网 络 。 除 此 之 外 ， 传 输 协 议 不 再 向 下 层 网 络 
提供 的 尽力 而 为 服务 增加 任何 其 他 功能 . 因特网 提供 的 用 户 数据 报 协议 就 是 这 样 的 传输 
协议 。 

在 这 样 的 协议 中 ， 唯 一 值得 注意 的 问题 是 用 来 标识 目的 进程 的 地 址 形式 。 虽 然 可 以 用 
操作 系统 赋予 的 进程 标识 符 (pid) 使 进程 之 间 直 接 相 互 识别 ,但 这 样 的 方法 只 可 能 在 一 
个 封闭 的 分 布 式 系统 中 有 实际 价值 ， 即 在 所 有 主机 上 只 运行 一 个 操作 系统 ， 这 个 唯一 的 操 
作 系 统 给 每 个 进程 分 配 唯 一 的 标识 符 。 一 种 更 通用 的 也 是 被 UDP 采用 的 方法 ， 是 使 用 一 
个 称 为 端口 (por) 的 抽象 定位 器 ， 使 进程 之 间 能 够 间接 (indirectly) 相互 识别 。 其 基本 
思想 是 ， 源 进程 向 端口 发 送 消息 而 目的 进程 从 端口 接收 消息 。 

实现 该 多 路 分 解 功能 的 端 到 端 协议 的 首部 通常 包 
含 消息 的 发 送 方 ( 源 ) 和 接收 方 (目的 ) 的 标识 符 
(端口 )。 例 如 , 图 5-1 给 出 了 UDP 的 首部 结构 。 注 
意 ，UDP 端口 字段 只 有 16 位 。 这 意味 着 最 多 有 64K | ~ = 
个 可 能 的 端口 ， 显 然 不 够 用 来 标识 因特网 上 所 有 主机 数据 
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的 全 部 进程 。 幸 运 的 是 ， 端 口 只 对 单 台 主 机 有 效 , 而 Aa 
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不 是 在 整个 因特网 上 都 有 效 。 也 就 是 说 ， 进 程 实际 是 
通过 特定 主机 上 的 某 个 端口 ( 即 一 个 (主机 ， 端 口 ) 图 5-1 UDP ARER 
对 ) 标识 的 。 实 际 上 ， 这 个 “〈 主 机， 端口 ， 对 构成 了 UDP 协议 的 多 路 分 解密 钥 。 

接 下 来 的 问题 是 一 个 发 送 进程 如 何 知道 接收 进程 的 端口 号 。 典 型 情况 下 ， 一 个 客户 进 
程 发 起 与 服务 器 进程 的 消息 交换 。 一 旦 客户 进程 建立 了 与 服务 器 进程 的 联系 ， 服 务 器 就 能 
获得 客户 进程 的 端口 号 (包含 在 消息 首部 的 SrePort ( 源 端口 ) 字段 中 ) ， 并 能 对 客户 进程 
进行 应 答 。 因 此 ， 真 正 的 难题 是 客户 进程 如 何 首 先 知道 服务 器 进程 的 端口 号 。 通 常 的 做 法 
是 ， 服 务 器 进程 在 一 个 知名 端口 well-known port) 接收 消息 。 就 是 说 ， 每 个 服务 器 进程 
在 某 个 固定 的 广 为 公 布 的 端口 接收 消息 ， 就 像 美国 紧急 电话 服务 可 以 用 众所周知 的 号 码 
911 一 样 。 例如， 在 因特网 上 ， 域 名 服务 器 (DNS) 总 是 在 端口 53 接收 消息 ， 电 子 邮 件 服 
务 在 端口 25 监听 消息 ，UNIX 上 的 talk 程序 在 端口 517 接收 消息 ， 等 等 。 这 种 服务 与 端 
口 的 对 照 表 定期 在 RFC 上 公布 ， 并 可 以 在 大 多 数 UNIX 系统 的 /etc/services 文件 中 得 到 。 
有 时 ， 知 名 端口 仅仅 是 通信 的 起 点 : 客户 端 和 服务 器 用 这 个 端口 达成 一 致 ， 并 在 另 一 个 端 
口 进行 后 续 的 通信 ， 以 便 释放 知名 端口 给 其 他 客户 进程 使 用 。 
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另 一 种 策略 是 推广 这 种 思想 : 知名 端口 只 有 一 个 ， 就 是 端口 映射 (port mapper) 服务 
接收 旅 息 的 端口 。 客 户 端 先 给 端口 映射 服务 程序 的 知名 端口 发 送 消息 ， 询 问 “ 无 论 什 么 ” 
服务 时 应 使 用 的 端口 ， 而 端口 映射 服务 程序 返回 相应 的 端口 。 这 种 策略 使 更 改 各 种 服务 的 
端口 和 对 每 台 主 机 使 用 不 同 端口 提供 相同 的 服务 变 得 容易 。 

如 上 所 述 ， 端 口 纯粹 是 一 种 抽象 。 实 际 上 ， — 
它 的 具体 实现 在 不 同 的 计算 机 系统 中 是 不 同 的 ， oaee | ganas |, omit 
或 者 更 准确 地 说 ， 在 不 同 的 操作 系统 中 是 不 同 ，，_ 。 | | | 
的 。 例 如 ， 第 1 鞋 描 述 的 套 接 字 API 是 端口 的 一 | | 
种 实现 。 一 般 来 说 ， 端 口 是 由 一 个 消息 队列 实现 
的 ， 如 图 5-2 所 示 。 当 消息 到 达 时 ， 协 议 〈 例 如 队列 
UDP) 会 把 该 消息 加 到 队列 的 末尾 。 如 果 队 列 满 
了 ， 消 息 被 丢弃 。UDP 中 没有 让 发 送 方 减 慢 发 送 








速度 的 流量 控制 机 制 。 当 应 用 程序 进程 需要 接收 多 组 的 — e 
消息 时 ， 就 从 队列 前 端 移出 一 条 消息 。 如 果 队列 SB wwe | 
是 空 的 ， 进 程 就 阻塞 直到 有 消息 可 用 。 一 下 一 一 

最 后 ， 虽 然 UDP 没有 实现 流量 控制 或 可 千 pie 


的 /有 序 的 传输 ,但 它 除了 把 消息 多 路 分 解 给 某 

个 应 用 进程 外 ， 还 提供 了 另 一 种 功能 一 一 通过 使 

用 校 验 和 来 确保 消息 的 正确 性 (UDP 校 验 和 在 IPv4 中 是 可 选项 ,但 在 IPv6 中 是 强制 性 

的 )。 基 本 的 UDP 校 验 和 算法 与 在 2.4. 2 节 定 义 的 IP 协议 校 验 和 算法 一 致 一 一 即将 一 组 

16 位 字 以 补 码 形式 相 加 ， 然 后 再 对 相 加 和 取 补 。 但 用 于 校 验 的 输入 数据 有 点 不 直观 。 
UDP 计算 UDP 首部 、 消 息 体 内 容 和 某 些 场合 称 为 伪 首 部 Cpseudoheader) 的 校 验 和 。 

伪 首 部 由 IP 首部 的 三 个 字段 (协议 号 、 源 IP 地 址 和 目的 IP 地 址 ) 加 上 UDP 长 度 字段 组 

成 (UDP 长 度 字 段 在 校 验 和 计算 中 被 使 用 两 次 )。 用 伪 首 部 的 原因 是 验证 消息 已 在 正确 的 

两 个 端点 之 间 传 输 。 例 如 ， 如 果 在 分 组 的 传递 过 程 中 修改 了 它 的 目的 IP 地 址 ， 就 会 造成 

分 组 被 错误 传输 ， 这 种 情况 会 被 UDP 校 验 和 检查 出 来 。 


5.2 可靠 字 节 流 (TCP) 

与 UDP 这 样 简单 的 多 路 分 解 协议 相 比 ， 一 种 更 复杂 的 传输 协议 提供 了 可 靠 的 、 面 向 
连接 的 字 节 流 服务 。 事 实证 明 ， 这 种 协议 对 于 众多 的 各 类 应 用 程序 是 有 用 的 ， 因 为 它 使 应 
用 程序 从 数据 丢失 和 失 序 的 顾虑 中 解脱 出 来 。 因 特 网 的 传输 控制 协议 是 这 类 协议 中 使 用 最 
广泛 的 协议 ,也 是 协调 性 最 精确 的 协议 。 因 此 ， 本 节 将 详细 讨论 TCP。 在 本 节 最 后 ,我 们 
还 指出 并 讨论 了 其 他 的 设计 选择 。 

按照 本 章 开始 的 问题 中 给 出 的 传输 协议 的 特性 ，TCP 能 保证 可 靠 的 、 有 序 的 字 节 流 
传输 。 它 是 全 双 工 协议 ， 也 就 是 说 每 个 TCP 连接 支持 一 对 字 节 流 ， 每 个 方向 一 个 字 节 流 。 
对 这 两 个 字 节 流 中 的 每 个 流 ， 它 还 包含 流量 控制 机 制 ,. 允许 接收 方 限制 发 送 方 在 给 定时 间 
内 发 送 的 数据 量 。 另 外 ,， 像 UDP 一 样 ，TCP 支持 多 路 分 解 机 制 ， 允 许 任 何 主机 上 的 多 个 
应 用 程序 同时 与 它们 各 自 的 对 等 实体 进行 对 话 。 此 外 ，TCP 也 实现 了 一 个 高 度 协调 (而 


图 5-2 UDP 消息 队列 
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且 仍 在 发 展 ) 的 拥塞 控制 机 制 。 这 种 机 制 的 思想 是 控制 TCP 发 送 方 发 送 数据 的 速度 ， 其 
目的 不 是 为 了 防止 发 送 方 发 出 的 数据 超出 接收 方 的 接收 能 力 ， 而 是 防止 发 送 方 发 出 的 数据 
超出 网 络 的 容量 。 关 于 TCP 拥塞 控制 机 制 的 说 明 将 在 第 6 章 给 出 ， 那 里 我 们 将 在 如 何 公 
平分 配 网 络 资源 这 一 更 大 的 范围 内 讨论 它 。 

结论 ”由 于 很 多 人 混 消 了 拥塞 控制 与 流量 控制 ， 所 以 在 此 我 们 再 次 说 明 它 们 之 间 

的 区 别 。 流 量 控 制 (flow control) 防止 发 送 方 发 出 的 数据 超出 接收 方 的 接收 能 

A. WHER (congestion control) 防止 过 多 的 数据 注入 网 络 而 造成 交换 机 或 链 

路 超载 。 因 此 ,流量 控制 是 一 个 端 到 端的 问题 ， 而 拥塞 控制 是 主机 如 何 与 网 络 交 

互 的 问题 。 


5.2.1 端 到 端 问题 


TCP 的 核心 是 滑动 窗口 算法 。 虽 然 这 与 2.5. 2 节 介 绍 的 基本 算法 相同 ， 但 因为 TCP 
是 在 整个 因特网 上 而 不 是 在 一 个 点 到 点 链 路 上 运行 ， 所 以 它们 存在 着 很 多 重要 的 差别 。 本 
节 指 出 这 些 差 别 ， 并 解释 这 些 差别 怎样 使 TCP 复杂 化 。 下 面 几 节 将 描述 TCP 如 何 处 理 这 
些 复杂 情况 。 

首先 ， 尽 管 2. 5.2 节 描 述 的 滑动 窗口 算法 运行 在 总 是 连接 两 台 计 算 机 的 一 条 物理 链 路 
上 ,但 TCP 仍然 支持 运行 在 因特网 中 任意 两 台 计 算 机 上 的 进程 之 间 的 逻辑 连接 。 这 就 是 
说 ，TCP 需要 有 明确 的 连接 建立 阶段 ,使 连接 的 双方 同意 相互 交换 数据 。 这 个 不 同 点 类 
似 于 需要 拨号 到 对 方 ， 但 是 没有 专用 电话 线路 。TCP 也 有 一 个 明确 的 断 开 连接 阶段 。 在 
连接 建立 阶段 发 生 的 事件 之 一 ， 是 双方 建立 某 种 共享 状态 使 滑动 窗口 算法 开始 运行 。 连 接 
断 开 阶段 是 必要 的 ， 因 为 只 有 这 样 双方 主机 才 知 道 可 以 释放 这 种 状态 。 

其 次 ,尽管 总 是 连接 两 台 相 同 计算 机 的 一 条 物理 链 路 具有 固定 的 往返 时 间 (RTT), 
{A TCP 连接 很 可 能 具有 差异 很 大 的 往返 时 延 。 例 如 ， 在 旧金山 的 一 台 主 机 和 在 波士顿 的 
一 台 主 机 之 间 有 一 个 TCP 连接 ， 它 们 相隔 数 千 公里 ，RTT 的 值 可 能 是 100ms， 而 在 同一 
个 房间 的 两 台 主 机 之 间 也 可 能 有 一 个 TCP 连接 ,它们 只 相距 几米 ，RTT 的 值 可 能 只 有 
lms。 因 此 ， 同 样 的 TCP 协议 必须 支持 这 两 种 连接 。 更 糟糕 的 是 ， 旧 金山 和 波士顿 两 地 主 
PLZ lal AY TCP 连接 可 能 在 凌晨 3 点 时 的 RTT 值 是 100ms， 而 在 下 午 3 点 时 的 RTT 值 变 
成 500ms。 甚 至 一 个 TCP 连接 在 持续 几 分 钟 后 ，RTT 值 就 可 能 发 生变 化 。 这 对 滑动 窗口 
算法 而 言 ， 意 味 着 触发 重 传 的 超时 机 制 必须 具有 适应 性 〈 当 然 ， 点 到 点 链 路 的 超时 值 必须 
是 可 以 设置 的 参数 ， 但 不 必 为 了 某 对 节点 而 调整 上 述 定时 器 ) 。 

第 三 个 差别 是 分 组 通过 因特网 时 可 能 重 排序 ， 这 在 点 到 点 的 链 路 上 是 不 可 能 的 ， 因 为 
在 链 路 一 端 先 发 送 的 分 组 一 定 先 到 达 另 一 端 。 分 组 的 轻 度 失 序 不 会 引起 问题 ， 因 为 滑动 窗 
口算 法 能 用 序号 将 分 组 正确 地 重新 排序 。 真 正 的 问题 是 失 序 的 分 组 多 长 时 间 能 到 达 ， 换 名 
话说 ， 分 组 多 晚 才 到 达 目 的 地 。 最 坏 的 情况 下 ， 分 组 在 因特网 中 被 延迟 ， 直 到 IP 的 生存 
期 CTTO 字段 过 期 ， 此 时 分 组 被 丢弃 (因此 不 存在 分 组 迟到 的 危险 )。 已 知 IP 在 分 组 的 
TTL 过 期 后 就 会 丢弃 分 组 ，TCP 假设 每 个 分 组 有 一 个 最 大 的 生存 期 。 这 是 一 种 设计 选择 ， 
称 为 最 大 报 文 段 生存 期 (Maximum Segment Lifetime，MSL)， 当 前 的 推荐 值 为 120s。 注 
E, IP 并 不 直接 强制 使 用 这 个 120s 的 值 ， 它 只 是 TCP 对 一 个 分 组 可 能 在 因特网 上 生存 多 
和 久 所 做 的 保守 估计 。 这 样 做 的 含义 很 明显 ， 就 是 TCP 不 得 不 为 很 早 以 前 发 出 的 分 组 突然 
出 现在 接收 方 而 做 准备 ， 因 为 这 种 分 组 可 能 会 搅乱 滑动 窗口 算法 。 








第 四 ， 连 接 到 点 到 点 链 路 的 计算 机 通常 都 支持 这 种 链 路 。 例 如 ， 如 果 一 个 链 路 的 延迟 
带宽 积 为 8KB， 就 意味 着 窗口 的 大 小 在 给 定 的 时 间 内 允许 最 大 SKB 的 数据 不 被 确认 ， 这 
样 可 以 认为 链 路 任 一 端的 计算 机 能 缓存 至 多 8KB 数据 。 不 这 样 设计 系统 是 思春 的 。 另 一 
方面 ， 几 乎 任何 类 型 的 计算 机 都 能 连 到 因特网 上 ， 这 使 得 用 于 TCP 连接 的 资源 数量 变化 
很 大 ， 尤其 是 考虑 到 任何 一 台 主 机 都 可 能 同时 支持 几 百 个 TCP 连接 。 这 意味 着 TCP 必须 
包含 一 种 机 制 ， 使 连接 的 每 一 端 用 它 “ 了 解 ” 男 一 端 有 什么 资源 (比如 多 少 缓冲 区 空间 ) 
用 于 连接 。 这 就 是 流量 控制 问题 。 

第 五 ， 因 为 一 个 直 连 链 路 的 发 送 方 不 能 以 超出 链 路 带宽 所 允许 的 速率 发 送 数据 ， 而 且 
只 有 一 台 主 机 向 链 路 注入 数据 ， 所 以 它 不 可 能 不 知道 链 路 拥塞 。 换 句 话 说 ， 链 路 的 负载 情 
况 是 以 发 送 方 的 分 组 队列 形式 显现 的 。 相 比 之 下 ，TCP 连接 的 发 送 方 并 不 知道 经 过 什么 
链 路 传送 到 目的 地 。 例 如 ， 发 送 方 计 算 机 可 能 直接 连 到 相对 较 快 的 以 太 网 ， 它 能 以 
100Mbps 的 速率 发 送 数据 ， 但 是 在 网 络 中 的 某 个 地 方 ， 必 须 通 过 一 段 1. 5Mbps 的 T1 ë 
路 。 而 且 更 糟糕 的 是 ， 从 很 多 数据 源 产生 的 分 组 可 能 都 要 通过 这 段 低速 网 络 链 路 。 这 就 会 
导致 网 络 拥塞 问题 。 我 们 在 第 6 章 讨论 这 个 主题 。 

下 面 通过 对 比 用 于 提供 可 靠 / 有 序 传输 服务 的 TCP 方法 与 X. 25 网 络 使 用 的 方法 来 结 
束 端 到 端 问题 的 讨论 。 在 TCP 中 ， 下 层 的 IP 网 络 被 认为 是 不 可 靠 的 .而 且 会 使 传递 消息 
错 序 ，TCP 在 端 到 端的 基础 上 利用 滑动 窗口 算法 提供 可 靠 / 有 序 的 传送 。 相 比 之 下 ，X. 25 
网 络 在 跳 到 跳 的 基础 上 在 网 络 内 部 使 用 滑动 窗口 协议 。 对 这 种 方法 的 假设 是 ， 如 果 一 条 消 
息 在 沿 源 主机 到 目的 主机 路 径 上 的 每 对 节点 之 间 都 能 可 靠 而 有 序 地 传输 ， 那么 端 到 端 服务 
也 能 保证 可 靠 / 有 序 的 传输 。 

后 面 这 种 方法 的 问题 在 于 ,一 系列 跳 到 跳 的 保证 不 一 定 能 车 加 为 端 到 端的 保证 。 首 
先 ， 如 果 一 个 异 构 的 链 路 (例如 以 太 网 ) 加 在 路 径 的 末端 ， 那么 无 法 保证 这 一 跳 能 维持 与 
其 他 跳 同样 的 服务 。 其 次 ， 滑 动 窗口 协议 只 保证 一 个 消息 从 节点 A 到 节点 B 正确 传递 
从 节点 BB 到 节点 C 也 能 正确 传递 ， 但 它 不 能 保证 在 节点 B 本 身 不 出 错 。 例 如， 我 们 已 经 
知道 ， 网 络 节 点 在 把 一 个 消息 从 输入 缓冲 区 传 到 输出 缓冲 区 时 有 可 能 会 出 现 错误 ， 也 知道 
它们 有 时 改变 消息 的 顺序 。 正 是 由 于 这 些小 窗口 的 脆弱 性 ， 所 以 仍然 需要 提供 真正 的 端 到 
端 检测 以 保证 可 靠 / 有 序 的 服务 ， 即 使 系统 的 低层 已 实现 了 这 种 功能 。 

结论 ”本 节 讨 论 的 目的 在 于 阐述 系统 设计 中 最 重要 的 原则 之 一 ， 即 端 到 端 理论 。 

简 而 言 之 ， 端 到 端 理论 说 明 一 种 功能 〈 在 我 们 的 例子 中 是 提供 可 靠 / 有 序 的 传递 ) 

不 应 该 在 系统 的 较 低 层 提 供 ， 除 非 能 在 低层 完全 正确 地 实现 。 因 此 ， 这 条 原则 有 

4) $ TCP/IP 方法。 但 是 该 原则 并 不 是 绝对 的 ， 有 时 为 了 性 能 优化 的 需要 也 允许 

在 较 低 层 提 供 一 些 不 完全 的 功能 。 这 就 是 为 什么 在 跳 到 跳 基 础 上 进行 差错 检测 

(如 CRC) 的 原因 ， 检 测 并 重 传 经 过 一 跳 的 单个 损坏 的 分 组 要 优 于 端 到 端 重 传 整 

个 文件 。 


5.2.2 报 文 段 格式 

TCP 是 面向 字 节 的 协议 ， 这 就 是 说 发 送 方 向 一 个 TCP 连接 写 入 字 节 ， 接 收 方 从 这 个 
TCP 连接 读 出 字 节 。 虽 然 用 “ 字 节 流 ” 描 述 TCP 提供 给 应 用 进程 的 服务 ， 但 是 TCP 本 身 
并 不 在 因特网 上 传送 单个 字 节 。 实 际 上 ， 在 源 主机 上 的 TCP 收集 发 送 进程 交付 的 字 节 、 
存 到 缓冲 区 中 ， 积 累 到 足够 的 数量 ， 将 其 一 起 放 人 一 个 大 小 适宜 的 分 组 ， 再 发 送 给 目的 主 
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机 上 的 对 等 实体 。 目 的 主机 上 的 TCP 把 这 个 分 组 的 内 容 存 人 接收 缓冲 区 ， 接 收 进程 在 空 
闲 时 从 这 个 缓冲 区 读 出 字 节 。 图 5-3 是 这 种 情况 的 图 解 ， 为 简单 起 见 ， 只 显示 了 一 个 方向 
的 数据 流 。 但 通常 情况 下 TCP 连接 支持 字 节 流 双向 流动 。 

















接收 缓冲 区 | 


Sse 





报 文 段 | | 报 文 段 ] 报 文 段 | 
传输 报 文 段 
图 5-3 TCP 字 节 流 





图 5-3 中 ,由 于 TCP 对 等 实体 之 间 交 换 的 每 个 分 组 都 携带 一 段 字 节 流 ， 所 以 将 这 些 
分 组 称 为 报 文 段 (segment)。 每 个 TCP 报 文 段 包含 如 图 5-4 所 示 的 首部 。 图 中 绝 大 多 数 
字段 的 相关 内 容 将 在 本 节 说 明 ， 现 在 简单 地 介绍 一 下 。 


















接收 窗口 
校 验 和 紧急 数据 指针 
选项 ( 可 变 长 ) 

















图 5-4 TCP 首部 格式 


与 UDP 首部 一 样 ，SrcPort 和 DstPort 字段 分 别 表示 源 端口 和 目的 端口 。 这 两 个 字段 
加 上 源 IP 地 址 和 目的 IP 地址 ， 组 合成 每 个 TCP 连接 的 唯一 标识 。 也 就 是 说 ，TCP 的 多 
路 分 解密 钥 由 四 元 组 给 出 : 

(SrePort, SrcIPAddr, DstPort, DstIPAddr) 

注意 ， 因 为 TCP 连接 有 始 有 终 ， 所 以 有 可 能 在 某 一 对 端口 间 建 立 了 一 个 连接 ， 并 用 
它 发 送 和 接收 数据 ， 然 后 关闭 。 接 着 在 一 段 时 间 后 ， 第 二 个 连接 又 使 用 同一 对 端口 。 有 时 
把 这 种 情况 称 为 相同 连接 的 两 个 不 同 实例 〈incarnation ) 。 

Acknowledgment (确认 号 )、SequenceNum (序号 ) 和 AdvertisedWindow (接收 窗 





O) 字段 都 在 TCP 的 滑动 窗口 算法 中 使 用 。 因 为 TCP 是 面向 字 节 的 协议 ， 所 以 数据 的 每 
个 字 节 都 有 序号 ，SequenceNum 字段 包含 报 文 段 携带 数据 的 第 一 个 字 节 的 序号 ，Ac- 
knowledgment 和 AdvertisedWindow 字段 携带 反方 向 数据 的 信息 。 为 了 简化 讨论 ,我们 名 
略 数据 可 以 双向 流动 的 事实 ， 只 关心 有 特定 SequenceNum 值 的 数据 向 一 个 方向 流动 ， 而 
Acknowledgment 和 AdvertisedWindow 向 相反 方向 流动 ， 如 图 5-5 所 示 。 这 三 个 字段 将 在 


5. 2.4 节 中 更 详细 地 描述 。 
。 接收 方 | 
确认 号 + 接收 窗口 和 


图 5-5 TCP 过 程 的 简单 描述 (只 考虑 单 向 )， 数 据 流 在 一 个 方向 而 确认 在 相反 方向 


数据 (序号 ) 


| 发 送 方 


6 比特 的 Flags (标志 ) 字段 用 来 在 TCP 对 等 实体 间 传 递 控制 信息 。 可 能 的 标志 位 有 
SYN, FIN, RESET, PUSH, URG 和 ACK。SYN 和 FIN 标志 分 别 在 建立 和 终止 TCP 
连接 时 使 用 。 它 们 的 用 法 在 5. 2. 3 节 描 述 。ACK 标志 在 每 次 Acknowledgment 字段 有 效 
时 设置 ， 意 指 接收 方 应 对 Acknowledgment 字段 加 以 注意 。URG 标志 意味 着 本 报 文 段 包 
含 紧急 数据 。 当 这 个 标志 被 置 位 时 ，UrgPtr (紧急 数据 指针 ) 字段 指明 本 报 文 段 的 非 紧 急 
数据 从 什么 地 方 开始 。 紧 急 数据 包含 在 报 文 段 段 体 的 前 部 ， 直 到 UrgPtr 值 所 指 的 字 市 数 
Aik. PUSH 标志 说 明 发 送 方 调用 了 push 操作 ， 这 向 TCP 的 接收 方 表 明 它 应 该 把 这 个 事 
实 通知 给 接收 进程 。 我 们 将 在 5. 2.7 节 对 后 两 个 特性 进行 更 多 的 讨论 。 最 后 ，RESET 标 
志 说 明 接 收 方 已 经 出 现 混 乱 ， 例 如 ， 因 为 它 收 到 了 并 不 希望 收 到 的 报 文 段 ， 所 以 它 想 要 终 
止 连接 。 

最 后 ，CheckSum ( 校 验 和 ) 字段 与 UDP 中 的 用 法 完全 相同 ， 它 是 通过 计算 整个 
TCP 首部 、TCP 数据 以 及 由 IP 首部 的 源 地 址 、 目 的 地 址 和 长 度 字 段 构成 的 伪 首 部 得 到 
的 。 在 IPv4 和 IPv6 H, TCP 都 要 求 有 校 验 和 字段 。 而 且 ， 由 于 TCP 首部 的 长 度 是 可 变 
的 (在 必 选 项 之 后 紧 跟 可 选项 )， 所 以 在 其 首部 中 包含 一 个 HdrLen (首部 长 度 ) 字段 ， 该 
字段 以 32 位 字 为 单位 给 出 首部 的 长 度 。 该 字段 也 称 为 Offset MWEE) 字段 ， 因 为 可 以 
用 它 衡 量 从 分 组 的 开始 位 置 到 数据 开始 位 置 的 偏 移 量 。 


5.2.3 连接 建立 与 终止 


一 个 TCP 连接 从 客户 端 (呼叫 方 ) 向 服务 器 〈 被 呼叫 方 ) 执行 一 个 主动 打开 操作 开始 
假设 服务 器 事先 已 经 执行 了 被 动 打开 操作 ， 那 么 双方 就 交换 建立 连接 的 消息 〈 回 顾 第 1 章 ， 
想 要 建立 连接 的 一 方 执行 主动 打开 操作 ， 而 接受 连接 的 一 方 执行 被 动 打 开 操作 )。 只 有 在 连 
接 建立 阶段 完成 以 后 ， 双 方才 开始 发 送 数据 。 同 样 ， 当 其 中 一 方 发 送 完 数据 ， 就 会 关闭 一 个 
方向 的 连接 ， 这 就 使 TCP 开始 一 轮 终止 连接 的 消息 。 注 意 ， 尽 管 连接 的 建立 是 一 个 非 对 称 
的 活动 一 方 执行 被 动 打开 而 另 一 方 执行 主动 打开 )， 但 是 连接 的 断 开 则 是 对 称 的 活动 (每 
一 方 必须 独立 地 关闭 连接 )@ 。 因 此 ， 有 可 能 一 方 已 经 完成 了 关闭 连接 ， 意 味 着 它 不 再 发 送 





日 、 更 准确 地 说 ， 连 接 建 立 实际 上 是 对 称 的 ， 每 一 方 都 试图 在 同一 时 间 打 开 连 接 ， 但 通常 情况 下 ， 一 方 是 主动 打开 、 
而 另 一 方 则 是 被 动 打开 。 
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数据 ， 但 是 另 一 方 却 仍 保持 双向 连接 的 另 一 半 为 打开 状态 并 且 继续 发 送 数据 。 


1. 三 次 握手 
TCP 使 用 的 建立 和 终止 连接 的 算法 称 为 三 次 握手 (three-way handshake) 。 我 们 首先 


握手 是 指 客户 端 和 服务 器 之 间 要 交换 三 次 消息 ， 如 
图 5-6 中 的 时 间 线 所 示 。 

算法 的 思想 是 双方 需要 商定 一 些 参 数 ， 在 打开 
一 个 TCP 连接 的 时 候 . 参数 就 是 双方 打算 为 各 自 
的 字 节 流 使 用 的 开始 序号 。 通 常 ， 参 数 可 以 是 每 一 
方 希望 另 一 方 了 解 的 任何 情况 。 首先 ， 客 户 端 ( 主 
MEST) 发 送 一 个 报 文 段 给 服务 器 〈 被 动 参与 | 
方 )， 声 明 它 将 使 用 的 初始 序号 (Falgs=SYN. Se- | , 
quenceNum=zx). ARS H— AIR Be. ATA 图 5-6 三 次 握手 算法 的 时 间 线 
客户 端的 序号 (Flags 二 ACK，Ack 一 + 十 1)， 同 时 声明 自己 的 初始 序号 (Flags=SYN, 
SequenceNum 王 >y) 。 也 就 是 说 ， 第 二 个 报 文 段 的 Flags 字段 的 SYN 和 ACK 位 被 置 位 。 最 
后 .客户 端 用 第 三 个 报 文 段 响应 ， 确 认 服务 器 的 序号 (Flags=ACK, Ack=yt+1), — 
端的 确认 序号 比 发 送 来 的 序号 大 1 的 原因 是 Acknowledgment 字段 实际 指出 “希望 接收 的 
下 一 个 序号 "， 从 而 隐 含 地 确认 前 面 所 有 序号 。 前 两 个 报 文 段 都 使 用 计时 器 ， 虽 然 在 图 中 
的 时 间 线 上 没有 显示 ， 而 且 如 果 没 收 到 所 希望 的 应 答 ， 就 会 重 传 报 文 段 。 

你 也 许 会 问 ， 为 什么 在 连接 的 建立 阶段 客户 端 和 服务 器 必须 相互 交换 初始 序号 ? 如 果 双 
方 只 从 已 知 的 序号 〈 比 如 0) 开始 会 比较 简单 。 实 际 上 ，TCP 规范 要 求 连接 的 每 一 方 随机 地 
选择 一 个 初始 序号 。 这 样 做 的 原因 是 防止 同一 连接 的 两 个 实例 过 快 地 重复 使 用 同一 个 序号 ， 
也 就 是 说 ， 仍 旧 有 可 能 出 现 以 前 的 连接 实例 的 一 个 数据 段 干扰 后 来 的 连接 实例 的 情况 。 

2. 状态 转换 图 

TCP 非常 复杂 ， 以 至 于 在 它 的 规范 中 包含 了 一 个 状态 转换 图 ， 如 图 5-7 所 示 。 这 个 图 
只 显示 打开 一 个 连接 时 的 状态 转换 (ESTABLISHED 的 上 面部 分 ) 和 关闭 一 个 连接 时 的 
状态 转换 (ESTABLISHED 的 下 面部 分 )。 当 连接 打开 后 执行 的 操作 〈 即 滑动 窗口 算法 的 
操作 ) 隐 含 在 ESTABLISHED 状态 中 。 

TCP 的 状态 转换 图 相当 容易 理解 。 每 个 矩形 框 代 表 一 个 状态 ，TCP 连接 的 每 一 端 都 
能 在 其 中 找到 自己 的 位 置 。 所 有 连接 开始 于 CLOSED 状态 。 随 着 连接 的 进行 ， 连 接 沿 弧 
线 从 一 个 状态 转移 到 男 一 个 状态 。 每 个 弧 线 用 事件 /操作 (event/action) 的 形式 标记 。 这 
样 ， 如 果 一 个 连接 处 于 LISTEN 状态 且 收 到 一 个 SYN 报 文 段 ( 带 有 SYN 标志 置 位 的 报 文 
段 )， 那 么 连接 就 转换 到 SYN _ RCVD 状态 ， 并 且 执 行 用 ACK 十 SYN 报 文 段 应 答 的 操作 。 

注意 有 两 类 事件 会 触发 状态 转换 : 来 自 对 等 实体 的 一 个 报 文 段 ( 例 如， 从 LISTEN 到 
SYN _ RCVD 弧 线 上 的 事件 ),， 或 本 地 应 用 进程 调用 一 个 TCP 操作 (例如 ， 从 CLOSED 
到 SYN _ SENT 弧 线 上 的 主动 打开 (active open) 事件 )。 换 句 话 说 ，TCP 的 状态 转换 图 
有 效 地 定义 了 其 对 等 实体 之 间 的 接口 和 服务 接口 的 语义 (semantic)， 如 1. 3.1 节 中 的 定 
义 。 这 两 种 接口 的 语法 (syntax) 分 别 由 报 文 段 的 格式 〈 见 图 5-4) 和 一 些 应 用 程序 接口 
(1.4.1 节 中 有 一 个 例子 ) 给 出 。 
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图 5-7 TCP 状态 转换 图 


现在 跟踪 图 5-7 中 发 生 的 典型 转换 。 注 意 在 连接 的 每 一 端 ，TCP 会 执行 不 同 的 状态 转 
换 。 当 打开 一 个 连接 时 ， 服 务 器 先 执 行 一 个 被 动 的 TCP 打开 操作 ， 这 使 TCP 转移 到 LIS- 
TEN 状态 。 在 一 段 时 间 后 ， 客 户 端 执行 主动 打开 操作 ， 向 服务 器 发 送 一 个 SYN 报 文 段 并 
转移 到 SYN _ SENT 状态 。 当 SYN eari 到 达 服 务 器 时 ， 它 就 会 转移 到 SYN RCVD 状 
态 并 用 SYN 十 ACK 报 文 段 响应 。 这 个 报 文 段 到 达 客 户 端 后 ， 会 使 客户 端 转 移 到 ESTAB- 
LISHED 状态 并 向 服务 器 发 回 一 begin at aL ACK HEX ER 到 达 后 ， 服 务 器 最 
后 转移 到 ESTABLISHED 状态 。 到 此 为 止 ， 我 们 跟踪 了 整个 三 次 握手 过 程 。 

关于 状态 转换 图 中 的 连接 建立 阶段 ， 有 三 种 情况 需要 注意 。 第 一 ， 如 果 客 户 端 到 服务 
器 的 ACK 报 文 段 (相应 于 三 次 握手 的 第 三 次 ) 丢失 ， 连 接 仍 能 正常 工作 。 这 是 因为 客户 
端 已 经 处 于 ESTABLISHED 状态 ， 所 以 本 地 应 用 进程 可 以 开始 向 另 一 方 发 送 数据 。 每 个 
报 文 段 都 有 ACK 标志 置 位 ， NEE Acknowledgment 字段 中 包含 正确 的 数值 ， 所 以 当 第 

一 个 报 文 段 到 达 服 务 器 时 ， 它 就 会 转移 到 ESTABLISHED 状态 。 这 实际 上 是 TCP 的 重点 
之 一 ， 即 每 个 报 文 段 报告 发 送 方 希望 看 到 的 下 一 个 序号 ， 即 使 这 个 序号 与 以 前 的 一 个 或 多 
个 报 文 段 包含 的 序号 重复 。 

关于 状态 转换 图 需要 注意 的 第 二 种 情况 是 ， 只 要 本 地 进程 调用 一 个 TCP 的 发 送 
(send) 操作 ，LISTEN 状态 就 会 发 生 一 个 有 趣 的 状态 转换 。 也 就 是 说 ,一 个 被 动 参与 方 
有 可 能 识别 出 连接 的 双方 〈 即 它 自己 和 想 与 它 连 接 的 远 端 参与 方 )， 然 后 改变 为 主动 建立 
连接 。 据 我 们 所 知 ， 还 没有 应 用 进程 真正 利用 TCP 的 这 个 特性 。 

关于 转换 图 要 注意 的 最 后 一 种 情况 是 有 一 些 弧 线 在 图 中 没有 给 出 。 特 别 是 ， 一 方向 另 
一 方 发 送 报 文 段 的 同时 会 调用 一 个 超时 机 制 ， 如 果 没 有 出 现 期 望 的 响应 ， 最 终 会 导致 重 发 

这 个 报 文 段 。 这 些 重 传 没有 在 状态 转换 图 中 给 出 。 如 果 在 几 次 重 发 后 仍 没有 得 到 期 望 的 响 
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Mi. TCP 就 会 放弃 重 传 并 回 到 CLOSED 状态 。 

现在 我 们 来 考虑 终止 一 个 连接 的 过 程 ， 这 里 需要 注意 的 一 件 重要 的 事情 是 ， 连 接 双方 
的 应 用 进程 必须 独立 地 关闭 自己 一 方 的 连接 。 如 果 仅 一 方 关闭 连接 ， 就 是 说 ， 它 不 再 发 送 
数据 ， 但 它 仍 能 接收 另 一 方 发 来 的 数据 。 这 就 使 状态 转换 图 复杂 化 ， 因 为 必须 考虑 到 双方 
可 能 同时 调用 关闭 (close) 操作 ， 也 可 能 其 中 一 个 先 调用 关闭 操作 ， 间 隔 一 段 时 间 后 另 一 
个 再 调用 关闭 操作 。 这 样 ， 连 接 的 任何 一 方 从 ESTABLISHED 状态 到 CLOSED 状态 有 三 
种 转换 组 合 : 

。 一 方 先 关闭 : ESTABLISHED~FIN_WAIT_1~FIN_WAIT_2->TIME_WAIT— 

CLOSED. | 
。 另 一 方 先 关 闭 : ESTABLISHED~CLOSE_WAIT-LAST_ACK—~CLOSED, 
。 双方 同时 关闭 : ESTABLISHED—FIN_WAIT_1—>CLOSING—TIME_WAIT—> 
CLOSED, 

事实 上 、 还 存在 第 四 种 极 少 出 现 的 到 达 CLOSED 状态 的 转换 顺序 ， 它 沿 着 从 FIN _ 
WAIT _1#) TIME _ WAIT 的 弧 到 达 。 我 们 把 它 作 为 习题 ， 请 你 找 出 导致 第 四 种 可 能 性 
的 情况 组 合 

关于 电 开 连接 需要 考虑 的 主要 事情 是 ， 直 到 等 待 一 个 IP 数据 报 在 因特网 上 可 能 存活 
的 最 大 时 长 的 2 倍 时 间 CB 120s) 后 ， 连 接 才 能 从 TIME_WAIT 状态 转移 到 CLOSED JK 
态 。 这 是 因为 当 连 接 的 本 地 一 方 已 经 发 出 一 个 ACK 报 文 段 响应 对 方 的 FIN 报 文 段 时 ， 它 
并 不 知道 这 个 ACK 报 文 段 是 否 成 功 传递 。 因 此 ， 另 一 方 可 能 又 重 传 一 个 FIN 报 文 段 ， 而 
这 第 二 个 FIN 报 文 段 可 能 在 网 络 中 被 延迟 。 如 果 人 允许 连接 直接 转移 到 CLOSED 状态 ， 那 
么 可 能 会 有 另 一 对 应 用 进程 打开 同一 个 连接 (即使 用 同一 对 端口 号 ) ， 而 前 面 连接 实例 中 
被 延迟 的 FIN 报 文 段 这 时 就 会 立即 使 后 来 的 连接 实例 终止 


5.2.4 滑动 窗口 再 讨论 


现在 讨论 TCP 滑动 窗口 算法 的 变 体 ， 它 服务 于 这 样 几 个 目的 : @ 保 证 数据 的 可 靠 传 
递 ; @ 确 保 数据 的 有 序 传递 ， @ 增 强 发 送 方 和 接收 方 之 间 的 流量 控制 。 在 这 三 种 功能 的 前 
两 种 情况 下 ，TCP 对 滑动 窗口 算法 的 使 用 与 我 们 在 2.5.2 节 看 到 的 相同 。TCP 与 以 前 算 
法 的 不 同 之 处 在 于 它 增 加 了 流量 控制 功能 。 特 别 是 TCP 并 不 使 用 固定 尺寸 的 滑动 窗口 ， 
而 是 由 接收 方向 发 送 方 通知 (advertise) 它 的 窗口 尺寸 。 这 是 通过 使 用 TCP 首部 的 Ad- 
vertised Window 字段 完成 的 。 此 后 ， 发 送 方 在 任意 给 定时 刻 未 被 确认 的 字 节 数 都 不 能 超过 
AdvertisedWindow 的 值 。 接收 方 根据 分 配给 连接 的 用 于 缓存 数据 的 内 存 数量 ， 为 Adver- 
tisedWindow 选择 一 个 合适 的 值 。 其 思想 是 不 使 发 送 方 发 送 的 数据 超过 接收 方 缓冲 区 的 限 
度 。 下 面 更 深入 地 讨论 这 个 问题 。 

1. 可 靠 和 有 序 的 传输 

图 5-8 给 出 了 TCP 发 送 方 和 接收 方 如 何 相 互 作用 以 实现 可 靠 和 有 序 的 传输 。 发 送 方 
的 TCP 维护 一 个 发 送 缓冲 区 ， 用 来 存储 那些 已 被 发 出 但 未 被 确认 的 数据 和 已 被 发 送 应 用 
程序 写 人 但 尚未 发 出 的 数据 。 在 接收 方 ，TCP 维护 一 个 接收 缓冲 区 ， 用 于 存放 到 达 的 错 
序数 据 和 按 正确 顺序 到 达 〈 即 字 节 流 中 没有 丢失 前 面 的 字 节 ) 但 应 用 进程 无 暇 读 出 的 
数据 。 
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为 了 简化 讨论 ， 先 忽略 以 下 事实 : 缓冲 区 和 序号 都 是 有 限 数量 的 ， 因 此 最 终 会 回 绕 
而 且 我 们 也 不 区 分 数据 中 某 个 特定 字 节 在 缓冲 区 存储 位 置 的 指针 与 字 节 的 序号 。 

首先 看 发 送 方 ， 它 维护 发 送 缓冲 区 的 三 个 指针 : LastByteAcked、LastByteSent 和 
LastbyteWritten。 显 然 

LastByteAcked<LastByteSent 
因为 接收 方 不 可 能 确认 未 发 出 的 字 节 。 并 且 
LastByteSent<LastByteWritten 

因为 TCP 不 能 发 送 应 用 程序 没 写 人 的 字 节 。 还 要 注意 ,不 必 在 缓冲 区 中 保留 Last- 
byteAcked 左边 的 字 节 ， 因 为 它们 已 经 被 确认 了 ; 也 没有 必要 缓存 LastByteWritten 右边 
的 字 节 ， 因 为 它们 还 没 产生 。 

在 接收 方 维 护 着 一 组 类 似 的 指针 (序号 ): LastByteRead, NextByteExpected 和 Last- 
ByteRevd。 然 而 因为 传输 的 错 序 问题 ， 不 等 式 不 那么 直观 。 第 一 个 关系 式 

LastByteRead< NextByteExpected 
成 立 ， 因 为 只 有 一 个 字 节 及 其 前 面 的 所 有 字 节 都 被 接收 后 ， 它 才能 被 应 用 程序 读 出 。 为 了 
满足 这 一 准则 ，NextByteExpected 指向 紧 接 最 后 一 个 字 节 的 那个 字 节 。 其 次 ， 
NextByteExpected<LastByteRevd+ 1 

成 立 ， 因 为 如 果 数 据 按 正确 的 顺序 到 达 ，NextByteExpected 指向 LastByteRevd 之 后 的 那 
个 字 节 ， 但 若 数据 到 达 是 错 序 的 ， 那 么 NextByteExpected 将 指向 数据 中 的 第 一 个 间隙 的 开始 
处 ， 如 图 5-8 所 示 。 注 意 ，LastByteRead 左边 的 字 节 不 必 再 保存 在 缓冲 区 中 ， 因 为 它们 已 经 
被 本 地 应 用 程序 读 取 ， 而 LastByteRevd 右边 的 字 节 也 不 必 缓 存 ， 因 为 它们 还 没 到 达 。 

2. 流量 控制 

以 上 讨论 的 绝 大 部 分 与 2. 5. 2 节 类 似 ， 唯 一 的 区 别 是 ,发送 应 用 进程 和 接收 应 用 进程 
分 别 填充 和 清除 它们 的 本 地 缓冲 区 ， 下 面 会 详 述 。 之 前 的 讨论 忽略 了 这 样 的 事实 ， 上 游 闻 
点 到 来 的 数据 填 人 发 送 缓冲 区 ， 向 下 游 节点 发 送 数据 后 清除 接收 缓冲 区 。 

你 必须 确定 在 继续 讨论 之 前 对 这 一 问题 已 经 理解 ， 因 为 现在 要 讨论 这 两 个 算法 更 大 的 
不 同 之 处 。 接 下 来 ， 再 次 说 明 收 发 双方 的 缓冲 区 具有 有 限 的 大 小 ， 分 别 用 MaxSendBuffer 
和 MaxRcvBuffer 表示 ， 但 是 我 们 并 不 关心 它们 具体 是 如 何 实现 的 。 换 句 话 说 ,我 们 只 对 
被 缓存 的 字 节 数 感 兴趣 ， 而 不 管 这 些 字 节 实际 上 存储 在 什么 地 方 。 

回想 在 滑动 窗口 协议 中 ， 窗 口 的 大 小 决定 可 以 被 发 出 而 不 必 等 待 接收 方 确认 的 数据 
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量 。 这 样 ， 接 收 方 通过 给 发 送 方 通知 一 个 不 大 于 它 所 能 存放 数据 量 的 窗口 ， 就 能 控制 发 送 
方 的 发 送 速率 。 可 以 看 出 ， 在 接收 方 的 TCP 必须 保持 
LastByteRevd—LastByteRead< MaxRevBuffer 
才能 避免 缓冲 区 溢出 。 因 此 它 通知 的 窗口 大 小 为 
AdvertisedWindow 王 MaxRcvBuffer 一 ((NextByteExpected 一 1) 一 LastByteRead) 
bp eda 中 剩余 的 可 用 空间 数量 。 当 数据 到 来 时 ， 只 要 它 前 面 的 字 节 已 经 到 
， 接 收 方 就 会 对 它 确 认 。 男 外 ， Ltd 向 右 移 动 (增加 )， 这 也 意味 着 通知 窗口 
通知 窗口 是 否 缩小 依赖 于 本 地 应 用 进程 处 理 数据 的 快慢 。 如 果 本 地 进程 读 取 数 
据 的 速率 与 数据 到 达 的 速率 相同 (使 LastByteRead 和 LastByteRevd 以 相同 的 速率 增加 )， 
那么 通知 窗口 就 保持 打开 状态 ( 即 AdvertisedWindow 王 MaxRcvBuffer) 。 然 而 ， 如 果 接 收 
进程 的 速率 可 能 因为 它 对 读 到 的 每 个 字 节 要 进行 费时 的 操作 而 落后 ， 那 么 随 着 每 个 报 文 段 
的 到 来 ， 通 知 窗口 就 会 变 得 很 小 ， 直 到 最 终 变 成 0。 
发 送 方 的 TCP 必须 遵守 从 接收 方 得 到 的 通知 窗口 。 这 就 意味 着 在 任何 时 刻 ， 它 必须 确保 
LastByteSent 一 LastByteAcked 委 AdvertisedWindow 
换个 方式 说 ， 发 送 方 计算 一 个 有 效 窗口 ， 用 来 限制 它 可 以 发 送 多 少数 据 : 
Effective Window= AdvertisedWindow 一 (LastByteSent— LastByteAcked) 
显然 ， 只 有 EffectiveWindow 大 于 0， 发 送 方 才 可 以 发 送 更 多 的 数据 。 因 此 ， 有 可 能 一 个 
报 文 段 到 达 而 确认 x 字 节 ， 从 而 允许 发 送 方 把 LastByteAcked 增加 x， 但 是 由 于 接收 进程 
没有 读 取 任何 数据 ， 所 以 通知 窗口 比 先前 小 了 x。 在 这 种 情况 下 ， 发 送 方 可 以 释放 缓冲 区 
空间 ， 但 不 能 再 发 送 任何 数据 。 
在 整个 过 程 中 ,发送 方 还 必须 始终 保证 本 地 应 用 进程 不 使 发 送 缓 冲 区 浇 出 ， 也 就 是 
LastByteWritten— LastByteAcked< MaxSendBuffer 
如 果 发 送 进程 试图 向 TCP BA y 字 节 ,但 是 
(LastByteWritten— LastByteAcked) + y>MaxSendBuffer 
ABA. TCP 就 会 阻塞 发 送 进 程 ， 不 让 它 再 产生 数据 。 
现在 应 该 可 以 理解 一 PRS ee ee RE 发 送 进程 最 终 停 止 下 来 的 。 首 
先 ， 接 收 缓冲 区 十 满 ， 这 意味 着 通知 窗口 缩小 到 0。 通 知 窗口 为 0 意味 着 发 送 方 不 能 发 送 
任何 数据 ， 即 使 它 以 前 发 送 的 数据 早已 被 成 功 确认 。 最 后 ， 不 能 传输 任何 数据 意味 着 发 送 
缓冲 区 填 满 ， 最终 使 TCP 将 发 送 进程 阻塞 。 接收 进程 重新 开始 读 取 数据 ， 接 收 方 TCP 就 
能 够 打开 它 的 窗口 ， 允 许 发 送 方 TCP 把 数据 从 它 的 缓冲 区 传送 出 去 。 te 
确认 ，LastByteAcked 随 着 增加 时 ， 就 把 保存 这 个 被 确认 数据 的 缓冲 区 空间 释放 ， 发 送 
程 解除 阻塞 并 允许 继续 执行 。 
现在 只 剩 下 一 个 细节 震 要 解决 ， 即 发 送 方 如 何 知道 通知 的 窗口 不 再 是 0? 如 上 所 述 ， 
TCP 总 是 发 送 一 个 报 文 段 对 接收 到 的 报 文 段 做 出 响应 ， 这 个 响应 包含 Ackonwledge 和 
AdvertisedWindow 字段 的 最 新 值 ， 即 使 这 两 个 值 自 上 次 发 送 以 来 没有 改变 。 问 题 正 在 于 
此 。 一 旦 已 经 通知 接收 方 窗口 变 为 0， 就 不 允许 发 送 方 发 送 任何 数据 ， 这 就 意味 着 它 没 有 
办 法 发 现在 将 来 的 某 个 时 刻 通 知 窗口 不 再 是 0。 接收 方 的 TCP 不 会 自发 地 发 送 不 包含 数据 
MIRE. EF ine 响应 到 达 的 报 文 段 时 发 送 它 们 。 
TCP 按 下 述 方式 处 理 这 种 情况 。 当 对 方 通知 的 窗口 变 为 0 时 ， 发 送 方 仍 坚 持 不 停 地 发 
一 个 只 有 1 字 节 的 报 文 段 。 它 知道 这 个 报 文 段 有 可 能 不 被 接收 ， 但 它 还 是 要 尝试 ， 因 为 





每 个 这 样 的 1 字 节 报 文 段 会 触发 包含 当前 通知 窗口 的 响应 。 最 终 ， 某 个 1 字 节 的 探测 报 文 
段 会 触发 一 个 报告 非 0 通知 窗口 的 响应 。 

结论 ”注意 ,发 送 方 周期 性 地 发 送 探 测报 文 段 的 原因 是 : TCP 被 设计 成 使 接收 

方 尽 可 能 地 简单 ， 即 它 只 响应 从 发 送 方 来 的 报 文 段 ， 而 它 自己 从 不 发 起 任何 活 

动 。 这 是 公认 的 (尽管 并 不 是 通用 的 ) 协议 设计 规则 的 一 个 例子 ， 因 为 没有 较 好 

的 名 称 ， 我 们 称 其 为 聪明 的 发 送 方 / 策 拙 的 接收 方 (smart sender/dumb receiver) 

规则 。 在 2. 5.2 Witte NAK 的 用 法 时 ， 我 们 见 过 这 条 规则 的 另 一 个 例子 。 

3. 防止 回 绕 

本 节 和 下 节 考 虑 SequenceNum 字段 和 AdvertisedWindow 字段 的 大 小 以 及 它们 对 
TCP 正确 性 和 性 能 的 影响 。TCP 的 SequenceNum 字段 长 32 位 ，AdvertisedWindow 字段 
长 16 位 ， 也 就 是 说 TCP 无 疑 已 经 满足 滑动 窗口 算法 的 要 求 ， 即 序号 空间 是 窗口 空间 的 两 
fi: 2” 沁 2X2%。 然 而 ， 这 个 要 求 对 这 两 个 字段 并 不 重要 。 下 面 依次 考虑 每 个 字段 。 

32 位 序号 空间 的 相关 问题 是 ， 某 个 连接 使 用 的 序号 可 能 会 回 绕 ， 即 具有 序号 工 的 一 
个 字 节 在 某 个 时 刻 被 发 送出 ， 一 段 时 间 后 ， 第 二 个 具有 序号 x 的 字 节 也 有 可 能 被 发 送出 
再 次 假设 一 个 分 组 在 因特网 上 的 生存 期 不 超过 MSL 的 建议 值 。 这 样 ， 当 前 的 任务 是 确保 
序号 在 这 120s 的 期 限 内 不 会 回 绕 。 这 种 情况 是 否 会 发 生 依赖 于 数据 在 因特网 上 传输 的 速 
度 ， 也 就 是 说 ，32 位 的 序号 空间 多 快 被 用 完 (这 里 的 讨论 假设 尽 可 能 快 地 消耗 序号 空间 . 
当然 只 要 让 管道 在 传输 进行 中 保持 满载 就 能 如 此 )。 表 5-1 显示 了 具有 不 同 带宽 的 网 络 使 
序号 回 绕 的 时 间 。 

可 见 ，32 位 的 序号 空间 对 当今 的 网 络 是 足够 的 ,但 是 对 于 当前 存在 于 因特网 主干 网 
上 的 OC-192 链 路 ， 在 单个 TCP 连接 以 622Mbps 或 更 高 速率 GS BRS HERA BR TE 
以 太 网 口 ) 运行 时 这 个 长 度 是 不 够 的 。 幸 运 的 是 ，IETEF 已 经 完成 了 对 TCP 的 扩展 工作 ， 
通过 有 效 地 扩展 序号 空间 来 防止 序号 回 绕 。 这 个 工作 以 及 相关 的 扩展 在 5. 2. 8 节 描 述 。 

4. 保持 管道 满载 

与 16 位 AdvertisedWindow 字段 相关 的 问题 是 ， 它 必须 足够 大 以 使 得 发 送 方 能 够 保持 
管道 满载 。 显 然 ， 接 收 方 可 以 不 把 窗口 开放 到 AdvertisedWindow 字段 所 人 允许 的 最 大 值 
我 们 只 关心 接收 方 是 否 有 足够 的 缓冲 区 空间 可 以 处 理 Advertised Window 所 允许 的 最 大 数 
据 量 的 情况 。 

在 这 种 情况 下 ， 网 络 带 宽 和 延迟 带宽 积 共同 决定 AdvertisedWindow 字段 应 有 的 大 小 。 
窗口 必须 开放 得 足够 大 ， 使 得 数量 为 延迟 X 带 宽 的 全 部 数据 能 被 传输 。 假 设 有 100ms 的 
RTT (穿越 美国 大 陆 的 连接 的 典型 数字 )， 表 5-2 给 出 了 几 种 网 络 技术 的 延迟 带宽 积 。 


表 5-1 32 比特 序号 空间 的 回 绕 时 间 表 5-2 100ms RTT 所 需 的 窗口 大 小 
回 绕 时 间 延迟 XxX 带宽 




















































T1 (1.5Mbps) 6. 4 小 时 T1 (1.5Mbps) 18KB 
以 太 网 (10Mbps) 57 分 钟 以 太 网 (10Mbps) 122KB 
T3 (45Mbps) 13 分 钟 T3 (45Mbps) 549KB 
快速 以 太 网 (100Mbps) 6 分 钟 快速 以 太 网 (100Mbps) 1. 2MB 
OC-3 (155Mbps) 4 分钟 OC-3 (155Mbps) 1. 8MB 
OC-12 (622Mbps) 55 秒 OC-12 (622Mbps) 7. 4MB 











OC-48 (2. 5Gbps) 14 & OC-48 (2. 5Gbps) 29. 6MB 
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可 以 看 出 ，TCP 的 AdvertisedWindow 字段 比 SequenceNum 字段 处 于 更 糟糕 的 境况 ， 
它 的 大 小 甚至 不 足以 处 理 横 穿 美国 大 陆 的 T3 连接 ， 因 为 16 比特 的 字段 只 允许 64KB 的 通 
知 窗口 。TCP 扩展 (参见 5. 2.8 节 ) 提供 了 一 种 有 效 增加 通知 窗口 大 小 的 机 制 。 


5.2.5 触发 传输 

接 下 来 考虑 一 个 微妙 的 问题 : TCP 怎样 决定 传输 一 个 报 文 段 。 如 前 所 述 ，TCP 支持 
一 种 字 节 流 抽象 ， 即 应 用 程序 把 字 节 写 到 流 里 ， 而 由 TCP REF TM ERA EW RK 
一 个 报 文 段 的 要 求 。 支 配 这 个 决定 的 因素 是 什么 呢 ? 

如 果 忽 略 流量 控制 的 可 能 性 ， 即 假设 窗口 是 敞开 的 ， 就 像 一 个 连接 刚 开 始 时 的 情形 ， 
ABA TCP 有 三 种 机 制 触发 一 个 报 文 段 的 传输 。 第 一 种 机 制 ，TCP 维护 一 个 变量 ， 称 为 最 
大 报 文 段 长 度 (MSS), 一 旦 TCP 从 发 送 进 程 收集 到 MSS 字 节 ， 它 就 发 送 一 个 报 文 段 。 
通常 把 MSS 设置 成 TCP 能 发 送 而 且 不 造成 本 地 IP 分 段 的 最 大 报 文 段 长 度 。 也 就 是 说 ， 
MSS 被 设置 成 直接 连接 网 络 的 最 大 传输 单元 (MTU) WE TCP 和 IP 首部 的 大 小 。 第 二 
种 触发 TCP 发 送 一 个 报 文 段 的 机 制 是 ， 发 送 进程 明确 要 求 TCP 发 送 一 个 报 文 段 。 特 别 是 
TCP 支持 push 操作 ， 发 送 进程 调用 这 个 操作 能 使 TCP 将 缓冲 区 中 所 有 未 发 送 的 字 节 发 送 
出 去 。 最 后 一 种 触发 TCP 发 送 一 个 报 文 段 的 机 制 是 定时 器 激活 ， 结 果 报 文 段 中 包含 当前 
缓冲 区 中 所 有 需要 发 送出 去 的 字 节 。 然 而 ， 我 们 很 快 就 会 看 到 ， 这 个 “定时 器 ”并 不 完全 
如 所 期 望 的 那样 。 

1. BM BaF IEIR 

当然 ， 流 量 控制 不 能 被 忽略 ， 它 对 控制 发 送 方 起 着 显而易见 的 作用 。 如 果 发 送 方 有 
MSS 字 节 数据 要 传输 而 窗口 至 少 打开 了 那么 大 ， 那 么 发 送 方 就 传输 一 个 满 报 文 段 。 但 是 ， 
如 果 发 送 方 正在 积累 要 发 送 的 字 节 ， 而 窗口 是 关闭 的 。 现 在 假设 有 一 个 ACK 到 达 ， 使 窗口 
开 到 是 以 让 发 送 方 传输 ， 比 如 说 MSS/2 字 节 。 那 么 发 送 方 是 发 出 一 个 半 满 的 报 文 段 还 是 等 
竺 窗口 开 大 到 MSS? 最 初 的 TCP 规范 并 未 对 这 一 点 进行 说 明 ， 但 早期 的 TCP 实现 决定 进行 
发 送 ， 并 传输 一 个 半 满 的 报 文 段 。 毕 竟 ， 无 法 得 知 多 长 时 间 以 后 窗口 才 会 进一步 开放 。 

事实 证 明 ， 一 味 地 利用 任何 可 用 窗口 的 策略 会 导致 现在 称 作 傻瓜 窗口 症状 (silly win- 
dow syndrome) 的 情形 。 图 5-9 有 助 于 想象 发 生 的 情况 。 如 果 把 TCP 流 看 作 是 一 个 传送 
人 带 ， 把 “满载 ”的 容器 〈 报 文 段 ) 向 一 个 方向 移动 ， 空 的 容器 CACK 段 ) 向 相反 方向 移 
BH, BBA MSS 大 小 的 报 文 段 就 对 应 大 容器 而 1 字 节 的 报 文 段 就 对 应 很 小 的 容器 。 只 要 发 
送 方 发 送 MSS 大 小 的 报 文 并 且 接 收 方 一 次 接收 一 个 MSS 大 小 的 数据 ， 那 么 一 切 都 没 问 题 
( 见 图 5-9a) 。 但 是 ， 如 果 接 收 方 必须 减少 窗口 导致 发 送 方 在 一 段 时 间 内 不 能 完整 地 发 送 
一 个 MSS 大 小 的 数据 将 会 发 生 什 么 ?如果 只 要 有 小 于 MSS 的 空 容器 到 达 ， 发 送 方 就 一 味 
地 填充 ， 接收 方 将 会 确认 它 ， 因 此 任何 引入 系统 的 小 容器 就 可 能 不 定期 地 留 在 系统 中 。 也 
就 是 说 ， 在 每 一 端 小 容 句 会 立刻 被 填充 或 被 清除 ， 而 从 不 会 联合 吡 邻 的 容器 来 创建 一 个 更 
大 的 容器 ， 参 见 图 5-9b。 当 早期 的 TCP 实现 定期 地 发 觉 自己 用 很 小 的 报 文 段 充满 网 络 时 ， 
这 种 “傻瓜 窗口 症状 ”就 出 现 了 。 

注意 ， 只 有 在 发 送 方 传输 小 报 文 段 或 接收 方 打开 小 窗口 时 才 会 出 现 傻瓜 窗口 症状 。 如 
果 这 两 种 情况 都 未 发 生 ， 那 么 小 容 带 就 永远 不 会 被 引入 数据 流 中 。 禁 止 发 送 小 报 文 段 是 不 
可 能 的 。 举 例 来 说 ， 应 用 程序 可 以 在 只 发 出 一 个 字 节 后 就 执行 push 操作 。 但 是 防止 接收 
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a) 如 果 发 送 方 发 送 MSS 大 小 的 报 文 段 ， 同时 接收 方 接收 MSS 
的 报 文 段 ， 系 统 运转 顺利 
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.Mss | MS |] 
b) 如 果 发 送 方 发 送 小 于 MSS 大 小 的 报 文 段 或 者 接收 方 接收 小 于 MSS 的 
报 文 段 ， 那 么 这 个 小 “容器 ”就 会 进入 系统 并 一 直 存 在 


图 5-9 傻瓜 窗口 症状 














方 引入 小 的 容器 ( 即 打开 小 窗口 ) 是 可 能 的 。 其 规则 是 接收 方 在 通知 一 个 大 小 为 零 的 窗口 
后 ， 必 须 等 到 有 MSS 大 小 的 空间 才能 再 通知 打开 窗口 。 

由 于 不 能 排除 小 容器 被 引入 数据 流 的 可 能 性 ， 所 以 需要 采用 把 它们 合并 起 来 的 机 
制 。 接 收 方 可 以 通过 延迟 发 送 ACK 做 到 这 一 点 (发送 一 个 合并 的 ACK 而 不 是 几 个 小 
ACK)， 然 而 这 只 解决 了 部 分 问题 ， 因 为 接收 方 无 法 知道 在 等 待 下 一 个 报 文 段 到 达 或 
应 用 程序 读 出 更 多 的 数据 (因此 而 打开 窗口 ) 时 ， 等 待 多 久 才 是 安全 的 。 最终 解 决 问 
题 的 重任 落 到 发 送 方 ， 这 又 回 到 了 最 初 的 问题 : 发 送 方 什么 时 候 决 定 传输 一 个 报 
文 段 ? 

2. Nagle 算法 

回 到 TCP 的 发 送 方 ， 如 果 有 数据 要 发 送 但 是 打开 的 窗口 小 于 MSS, 那么 在 发 出 可 用 
数据 之 前 可 能 要 等 待 一 段 时 间 ， 但 问题 是 等 竺 多久 ?” 如果 等 待 太 久 ， 就 会 有 损 于 像 Telnet 
这 样 的 交互 式 应 用 程序 。 如 果 等 待 的 时 间 不 够 长 ， 又 会 面临 发 出 很 多 小 分 组 而 陷入 傻瓜 窗 
口 症状 的 风险 。 答 案 是 引入 一 个 定时 器 ， 时 间 到 了 就 传输 数据 。 

虽然 可 以 引入 一 个 基于 时 钟 的 定时 器 ， 比 如 每 100ms 激活 一 次 ,但 是 Nagle 引入 了 一 
种 完美 的 自 计 时 (self-clocking) 方案 。 其 思想 是 只 要 TCP 发 出 了 数据 ， 发 送 方 终究 会 收 
到 一 个 ACK。 可 以 把 这 个 ACK 看 成 激活 的 定时 器 ， 触 发 传输 更 多 的 数据 。Nagle 算法 提 
供 了 一 条 决定 何 时 传输 数据 的 简单 统一 的 规则 : 

当 应 用 产生 要 发 送 的 数据 时 

if 可 用 数据 和 窗口 三 MSS 
发 送 满 载 的 报 文 段 

else 

if 有 正在 传输 的 报 文 段 
缓存 新 数据 直到 ACK 到 达 


else 
发 送 所 有 新 数据 “ 


换 名 话说， 如 果 窗 口 大 小 允许 ， 那么 就 可 以 发 出 一 个 满载 的 报 文 段 ; 如 果 当 前 没有 
处 于 传输 中 的 报 文 段 ， 也 可 以 立即 发 出 一 个 小 报 文 段 ; 但 是 如 果 有 传输 的 报 文 段 ， 发 送 
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方 就 必须 等 待 有 ACK 到 达 才 可 传输 下 一 个 报 文 段 。 这 样 ， 像 Telnet 这 类 每 次 写 一 个 字 
节 的 交互 式 应 用 程序 将 能 以 每 RTT 一 个 报 文 段 的 速率 发 送 数据 。 有 些 报 文 段 只 有 一 个 
字 节 ， 而 其 他 报 文 段 将 包含 用 户 在 一 个 RTT 的 时 间 内 能 输入 的 所 有 字 节 。 因 为 有 些 应 
用 程序 不 能 容忍 每 次 TCP 连接 写 操 作 的 延迟 ， 所 以 套 接 字 接口 允许 应 用 程序 通过 设置 
TCP_ NODELAY 选项 来 关闭 Nagle 算法 。 设 置 这 个 选项 意味 着 数据 被 尽 可 能 快 地 
传输 。 


5.2.6 自 适应 重 传 


由 于 TCP 保证 可 靠 的 数据 传送 ， 所 以 如 果 在 一 定 的 时 限 内 没有 收 到 ACK, 那么 它 就 
会 重 传 每 个 报 文 段 。TCP 把 这 个 超时 设置 成 它 期 望 的 连接 两 端的 RTT 的 函数 。 不 幸 的 
是 .即使 给 出 因特网 上 任意 一 对 主机 之 间 RTT 可 能 的 范围 ， 也 给 出 同一 对 主机 之 间 RTT 
随时 间 的 变化 ， 选 择 一 个 合适 的 超时 值 也 并 不 容易 。 为 了 处 理 这 个 问题 ，TCP 使 用 一 种 
自 适应 重 传 机 制 。 下 面 描述 这 种 机 制 以 及 它 是 怎样 随 着 因特网 业界 使 用 TCP 获得 的 经 验 
而 发 展 起 来 的 。 

1. 原始 算法 

我 们 从 计算 一 对 主机 之 间 超 时 值 的 简单 算法 开始 。 这 是 最 初 在 TCP 规范 中 描述 的 算 
法 (下 面 用 规范 中 的 术语 描述 )， 但 是 它 适用 于 任何 端 到 端 协 议 。 

算法 的 思想 是 ， 维 持 一 个 RTT 的 平均 运行 值 ， 并 把 超时 值 作为 RTT 的 一 个 函数 计 
算 。 特 别 地 ， 每 次 TCP 发 送 一 个 数据 报 文 段 ， 它 便 记录 发 送 时 刻 。 当 那个 报 文 段 的 ACK 
BAM. TCP 再 次 读 取 时 间 ， 然 后 把 这 两 次 时 间 的 差 作 为 SampleRTT。 接 着 TCP 利用 以 
前 的 估计 值 和 这 个 新 的 样本 值 计算 出 EstimatedRTT 作为 加 权 平 均值 。 即 

EstimatedRTT=aX EstimatedRTT + (1—a) X SampleRTT 

选择 参数 a 是 为 了 平滑 EstimatedRTT。 较 小 的 a 值 可 以 跟踪 RTT 的 变化 ， 但 是 它 可 能 受 
瞬时 波动 的 影响 过 于 严重 。 另 一 方面 ， 一 个 大 的 a 值 更 稳定 但 不 能 迅速 适应 真正 的 变化 。 
原始 TCP 规范 建议 a 值 设置 在 0.8~0.9 之 间 。TCP 用 EstimatedRTT 以 较 保守 的 方式 计 
算 超时 值 : 





TimeQOut=2 X EstimatedRTT 

2. Karn/Partridge 算法 

在 因特网 上 应 用 几 年 以 后 ， 人 们 在 这 个 简单 算法 中 发 现 了 一 个 明显 的 缺陷 。 问 题 是 
ACK 实际 上 并 不 确认 传送 ， 而 是 确认 数据 的 接收 。 换 名 话说 ， 无 论 何 时 重 传 一 个 报 文 段 ， 
然后 一 个 ACK 到 达 发 送 方 ， 它 都 不 可 能 为 测量 样本 RTT 确定 这 个 ACK 是 针对 第 一 个 报 
文 段 还 是 第 二 个 重 发 的 报 文 段 。 发 送 方 有 必要 知道 这 个 ACK 是 针对 哪 一 次 发 送 的 ， 以 便 
计算 一 个 精确 的 SampleRTT。 如 图 5-10 所 示 ， 如 果 错 把 针对 第 二 个 报 文 段 的 ACK 当成 
针对 第 一 个 报 文 段 的 ，SampleRTT 就 会 过 大 ( 见 图 5-10a) ， 相 反 ， 如 果 错 把 与 第 一 个 报 
文 段 关 联 的 ACK 当成 第 二 个 报 文 段 的 ACK,， 那么 SampleRTT 就 会 过 小 ( 见 图 5-10b) 。 

解决 办 法 相当 简单 。 当 TCP 重 传 一 个 报 文 段 时 ， 它 停止 计算 RTT 的 样本 值 ， 即 它 只 
为 仅 发 送 一 次 的 报 文 段 测量 SampleRTT。 这 个 算法 就 是 著名 的 以 其 发 明 者 命名 的 Karn/ 
Partridge 算法 。 他 们 提出 的 修正 法 还 包括 一 个 对 TCP 超时 机 制 较 小 的 改动 。 每 次 TCP 重 
传 时 ， 它 设 壮 下 次 的 超时 值 为 上 次 的 两 倍 ， 而 并 不 以 上 次 的 EstimatedRTT 为 基础 。 也 就 
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a 原始 传输 。 b 重 传 
图 5-10 与 原始 传输 和 重 传 关联 的 ACK 


是 说 ，Karn 和 Partridge 提出 TCP 使 用 指数 回 退 算法 ， 就 像 以 太 网 中 一 样 。 使 用 指数 回 
退 算法 的 动机 很 简单 : 拥塞 最 可 能 导致 报 文 段 丢失 ， 这 表明 TCP 源 主机 对 超时 的 反应 不 
应 该 太 主动 。 实 际 上 ， 连 接 超时 次 数 越 多 ， 源 主机 越 会 小 心间 慎 。 在 第 6 章 中 会 看 到 这 一 
思想 在 更 复杂 的 机 制 中 再 次 体现 。 
3. Jacobson/Karels 算法 
Karn/Partridge 算法 提出 时 ， 正 着 因特网 经 受 严 重 网 络 拥 塞 的 时 期 。 该 方法 用 于 解决 
一 些 拥塞 问题 ， 虽 然 有 一 定 改进 ， 但 拥塞 并 未 消除 。 几 年 以 后 ， 另 外 两 位 研究 人 员 Jacob- 
son 和 Karels 提出 对 TCP 进行 进一步 的 改进 来 对 付 拥 塞 问 题 。 这 个 建议 的 重要 内 容 在 第 6 
章 描述 。 这 里 只 关注 与 决定 何 时 超时 并 重 传 报 文 段 有 关 的 提议 。 
另外 ， 必 须 清楚 超时 机 制 是 怎样 与 拥塞 相关 的 。 如 果 超 时 太 快 ， 可 能 不 必要 重 传 报 文 
段 ， 那 样 只 会 增加 网 络 的 负载 。 在 第 6 章 会 看 到 ， 需 要 准确 超时 值 的 另 一 个 原因 是 超时 被 
用 来 暗示 发 生 了 拥塞 ， 它 会 触发 拥塞 控制 机 制 。 最 后 要 注意 ，Jacobson/Karels 关于 超时 
的 计算 并 没有 什么 特别 针对 TCP 的 东西 ， 它 可 以 用 于 任何 端 到 端 协议 。 
原始 计算 的 主要 问题 是 没有 考虑 到 RTT 样本 的 变化 。 直 觉 上 ， 如果 样 本 变化 小 ， 则 
EstimatedRTT 的 值 就 更 为 可 信 ， 没 必要 把 这 个 值 乘 以 2 来 计算 超时 值 。 男 一 方面 ， 样 本 
变化 很 大 说 明 超 时 值 应 该 远 不 止 是 EstimatedRTT 的 两 倍 。 
在 新 方法 中 ， 发 送 方 与 以 前 一 样 测量 一 个 新 的 SampleRTT. 并 把 这 个 新 样本 按 如 下 
方法 包含 到 超时 计算 中 : 
Difference=SampleRTT—EstimatedRTT 
EstimatedRTT=EstimatedRTT +(8X Difference) 
Deviation= Deviation +6( | Difference | — Deviation) 
其 中 , 6 是 0~1 之 间 的 小 数 。 也 就 是 说 ， 计 算 RTT 的 平均 值 以 及 该 平均 值 的 变化 。 
接着 TCP 把 超时 值 作为 EstimatedRTT 和 Deviation 的 图 数 计 算 : 
TimeOut= p X EstimatedRTT 十 %X Deviation 
Hp, 根据 经 验 ，y 通常 设 为 1，$ 设 为 4。 这 样 ， 当 变化 小 时 ，TimeOut 与 Estimate- 
dRTT 接近 ， 而 大 的 变化 会 使 Deviation 项 决定 计算 结果 。 
4. 实现 j 
关于 TCP 中 超时 的 实现 ， 有 两 点 需要 注意 。 第 一 点 ， 可 以 不 用 浮 点 算术 实现 Esti- 
matedRTT 和 Deviation 的 计算 。 相 反 ， 将 8 选 作 1/2"， 整 个 计算 以 2" 的 比例 增加 。 这 
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使 得 能 够 用 移 位 实现 乘法 和 除法 的 整数 运算 ， 因 此 获得 较 高 的 性 能 。 下面 的 代码 段 给 出 
了 相应 的 计算 方法 . Hep n=3 ( 即 6 二 1/8)。 注 意 EstimatedRTT 和 Deviation 以 按 比 例 
放大 的 形式 存储 ， 而 代码 开始 处 的 SampleRTT 和 结尾 处 的 TimeOut 是 真正 的 未 放大 的 
值 。 如 果 认 为 代码 难以 理解 ， 那 么 可 以 代入 一 些 真实 数值 ， 验 证 它 的 结果 与 上 面 的 公式 
一 致 。 


SampleRTT -= (EstimatedRTT >> 3); 
EstimatedRTT += SampleRTT: 
if (SampleRTT < 0) 

SampleRTT = -SampleRTT; 


SampleRTT -= (Deviation >> 3); 
Deviation += SampleRTT; 
TimeOut = (EstimatedRTT >> 3) + (Deviation >> 1); 


需要 注意 的 第 二 点 是 ，Jacobson 和 Karels 的 算法 实际 上 相当 于 读 取 当前 时 间 的 时 
钟 。 在 典型 的 UNIX 实现 中 ， 时 钟 粒 度 大 到 500ms， 显 然 比 横 穿 美国 的 在 100 一 200ms 
之 间 的 平均 RIT 值 大 得 多 。 更 糟 的 是 ， 在 典型 的 UNIX 实现 中 ，TCP 的 实现 只 在 每 个 
500ms 时 刻 检查 是 否 发 生 超时 ， 而 且 只 对 每 个 RTT 取 一 次 往返 时 间 样 本 。 这 两 个 因素 
的 组 合意 味 着 一 个 报 文 段 传输 1s 后 发 生 超时 。 因 此 ，TCP 的 扩展 还 包含 一 个 使 RTT it 
算 更 准确 的 机 制 。 

目前 讨论 过 的 所 有 重 传 算法 都 基于 确认 机 制 ， 通过 超时 来 表明 报 文 段 可 能 已 经 丢失 ，。 
人 然而， 超时 并 没有 告诉 发 送 方 在 丢失 报 文 段 之 后 发 送 的 报 文 段 是 否 成 功 到 达 ， 因 为 TCP 
的 确认 是 累积 确认 ， 它 只 确认 所 收 到 的 没有 间隔 的 最 后 一 个 报 文 段 。 在 间隔 之 后 接收 的 报 
文 段 导致 了 更 大 的 窗口 ， 如 果 能 够 对 间隔 之 后 正确 接收 的 报 文 段 进行 确认 ， 那 么 发 送 方 就 
具有 更 高 的 智能 性 ， 能 够 了 解 到 更 实际 的 拥塞 状态 ， 从 而 对 RTT 有 更 准确 的 估计 。5. 2.8 
节 将 要 描述 的 TCP 扩展 机 制 能 够 做 到 这 一 点 。 


5.2.7 记录 边界 

由 于 TCP 是 面向 字 节 流 的 协议 ， 因 此 每 次 发 送 方 写 人 的 字 节 数 未 必 与 接收 方 读 出 的 
字 节 数 相等 。 例 如 ， 应 用 程序 向 一 个 TCP 连接 写 人 8 FW, HAGA 2 字 节 ， 然 后 又 写 
入 20 字 节 ; 而 在 接收 方 ， 应 用 程序 每 次 只 读 5 字 节 ， 循 环 读 6 次 。TCP 不 在 第 8 和 第 9 
个 字 节 以 及 第 10 和 第 11 个 字 节 之 间 插 入 记录 的 边界 。 这 与 面向 数据 报 的 协议 an UDP) 
相反 ， 在 面向 数据 报 的 协议 中 发 送 的 消息 与 接收 到 的 消息 长 度 完全 相同 。 

虽然 TCP 是 面向 字 节 流 的 协议 ， 但 它 有 两 个 不 同 的 特性 可 被 发 送 方 用 来 在 字 节 流 中 
插入 记录 边界 ， 因 而 通知 接收 方 如 何 把 字 节 流 分 成 记录 (例如 ， 在 许多 数据 库 应 用 中 ， 能 
标记 出 记录 的 边界 是 有 用 的 )。 这 两 个 特性 最 初 由 于 完全 不 同 的 原因 被 包含 在 TCP 中 ,但 
它们 一 直 未 被 使 用 ， 直 到 用 于 这 个 目的 。 

第 一 个 机 制 是 紧急 数据 特性 ， 在 TCP 首部 用 URG 标志 和 UrgPtr 字段 实现 。 最 初 ， 
紧急 数据 机 制 被 设计 成 允许 发 送 应 用 程序 向 其 对 等 实体 发 送 带 外 (out-of-band) 数据 。 用 
“ 带 外 ”是 为 了 与 正常 数据 流 中 的 数据 相 区 别 ， 如 用 命令 中 断 正 在 进行 的 操作 。 在 报 文 段 
中 ， 这 个 带 外 数据 用 UrgPtr 字段 标识 ， 一 到 达 就 立即 传递 给 接收 进程 ， 即 使 这 意味 着 在 
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传输 具有 更 早 序号 的 数据 之 前 传输 它 。 然 而 ， 这 个 特性 一 直 没 有 得 到 应 用 ， 所 以 人 们 不 再 
用 它 来 表示 “紧急 ”数据 ， 而 是 渐渐 地 用 它 来 表示 “特殊 ”数据 ， 比 如 一 个 记录 标记 。 与 
push 操作 一 样 ， 这 个 用 法 发 展 起 来 是 因为 接收 方 的 TCP 必须 通知 应 用 程序 有 紧急 数据 到 
达 。 也 就 是 说 ， 紧 急 数 据 本 身 并 不 重要 ， 重 要 的 是 发 送 进程 能 有 效 地 向 接收 方 发 送信 号 

第 二 个 向 字 节 流 插入 记录 结束 标记 的 机 制 是 push 操作 。 最 初 设计 这 种 机 制 是 用 来 使 
发 送 进程 能 告诉 TCP， 不 管 它 收集 了 多 少 字 节 ， 应 立刻 把 它们 发 送 给 对 等 实体 。push 可 
以 用 来 实现 记录 分 界 ， 因 为 TCP 规范 说 明 ， 当 应 用 程序 要 求 push 时 ， 不 管 源 端 缓冲 区 有 
多 少数 据 ，TCP 必须 将 它们 发 送出 去 ， 如 果 目 的 端 TCP 支持 这 个 选项 ,那么 无 论 何 时 接 
收 到 有 PUSH 标志 的 报 文 段 ， 都 要 通知 应 用 程序 。 因 此 ， 如 果 接 收 端 支持 这 个 选项 〈 套 
接 字 接口 不 支持 ) ， 就 可 以 用 push 操作 将 TCP 流 分 割 成 记录 。 

当然 ， 应 用 程序 总 是 不 依靠 TCP 的 任何 帮助 就 能 随意 插入 记录 边界 。 例如， 它 可 以 
发 送 一 个 字段 指明 随后 的 记录 长 度 ， 或 向 数据 流 中 插入 它 自己 的 记录 边界 标记 。 


5.2.8 TCP 扩展 


我 们 已 在 本 节 四 个 不 同 的 地 方 提 到 ， 目 前 对 TCP 的 扩展 有 助 于 缓和 其 面临 的 由 于 底 
层 网 络 变 得 更 快速 而 带 来 的 一 些 问题 。 这 些 扩展 被 设计 成 对 TCP 协议 的 影响 尽 可 能 地 小 。 
特别 是 在 实现 时 ， 它 们 作为 可 选项 添加 到 TCP 的 首部 。 (虽然 先前 未 加 说 明 , 但 TCP 首 
部 有 一 个 HdrLen 字段 的 原因 是 其 首部 的 长 度 是 可 变 的 ， 而 TCP 首部 的 可 变 长 度 部 分 包 
含 已 经 加 入 的 可 选项 。) 把 这 些 扩展 功能 添加 为 可 选项 而 不 是 改变 TCP 基本 首部 的 重要 性 
在 于 ， 即 使 没有 实现 这 些 选项 ， 主 机 之 间 仍 然 可 以 使 用 TCP 进行 通信 。 然 而 ， 对 于 实现 
这 些 可 选 的 扩展 功能 的 主机 ， 就 可 以 利用 它们 。 在 TCP 连接 的 建立 阶段 ， 连接 的 双方 可 
以 对 是 否 使 用 扩展 功能 达成 一 致 。 

第 一 个 扩展 功能 有 助 于 改进 TCP 的 超时 机 制 。TCP 不 使 用 粗 粒度 事件 来 测量 RTT. 
而 是 在 即将 发 送 一 个 报 文 段 时 ， 读 取 实 际 的 系统 时 钟 ， 并 把 这 个 时 间 值 (可 以 把 它 想象 成 
一 个 32 位 的 时 标 放 到 该 报 文 段 的 首部 。 接 收 方 在 其 确认 中 把 这 个 时 标 返 回 给 发 送 方 ， 而 
发 送 方 从 当前 时 间 中 减 去 这 个 时 标 就 可 以 测 出 RTT。 实 际 上 ， 这 个 时 标 选 项 为 TCP 提供 
了 一 个 理想 的 场所 来 存储 某 个 报 文 段 是 何 时 被 传输 的 ， 它 把 时 间 存 放 在 报 文 段 中 。 注意、 
连接 中 的 两 端 并 不 需要 进行 时 钟 同步 ， 因 为 时 标 是 在 连接 的 同一 端 被 写 人 和 读 取 的 。 

第 二 个 扩展 解决 TCP 的 32 位 SequenceNum 字段 在 高 速 网 络 上 回 绕 过 快 的 问题 . 
TCP 并 不 定义 一 个 新 的 64 位 的 序号 字段 ， 而 是 使 用 刚 描述 的 32 位 时 标 有 效 地 扩展 序号 空 
间 。 换 句 话说 ，TCP 根据 一 个 64 位 的 标识 符 决 定 接收 或 丢弃 一 个 报 文 段 ， 这 个 标识 符 由 
低 32 位 的 SequenceNum 字段 和 高 32 位 的 时 标 构成 。 由 于 时 标 一 直 在 增加 ， 所 以 可 以 用 
它 来 区 分 有 相同 序号 的 两 个 不 同 的 报 文 段 。 注 意 ， 以 这 种 方式 使 用 时 标 只 是 为 了 防止 序号 
回 绕 现 象 ， 它 并 不 作为 序号 的 一 部 分 而 用 于 数据 的 排序 和 确认 。 

第 三 个 扩展 功能 允许 TCP 通知 更 大 的 窗口 ， 因 此 允许 它 填充 可 能 由 高 速 网 络 形成 的 
更 大 的 延迟 X 带 宽 管 道 。 这 个 扩展 功能 有 一 个 选项 ， 它 为 通知 窗口 定义 一 个 扩展 因子 
(sealing factor) 。 也 就 是 说 ， 不 把 出 现在 AdvertisedWindow 字段 中 的 数值 解释 为 发 送 方 
允许 有 多 少 字 节 不 被 确认 ， 这 个 选项 允许 TCP 连接 的 双方 同意 AdvertisedWindow 字段 计 
算 更 大 的 数据 块 〈 例 如 ， 发 送 方 可 以 有 多 少 个 16 字 节 数据 单元 不 被 确认 ) 。 换 名 话说， 这 
个 窗口 扩展 选项 说 明 ， 在 用 AdvertisedWindow 字段 中 的 内 容 计 算 有 效 窗口 之 前 ， 每 一 方 
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应 将 它 左 移 多 少 位 。 

第 四 个 扩展 功能 扩充 了 TCP 的 累积 确认 功能 ， 方 法 是 对 收 到 的 与 先前 已 收 到 的 报 文 
段 不 连续 的 报 文 段 进 行 可 选 确认 ， 这 称 为 可 选 确认 (selective acknowledgment) 或 
SACK. 使 用 SACK 选项 时 ， 接 收 方 继续 确认 报 文 段 ， 确 认 字 段 的 确认 方式 不 变 ， 但 也 使 
用 首部 的 选项 字段 来 确认 接收 到 的 其 他 数据 块 。 这 使 得 发 送 方 能 够 根据 可 选 确认 来 重 传 确 
实 已 经 丢失 的 报 文 段 。 

如 果 没 有 SACK, 发 送 方 只 有 两 个 合理 的 策略 。 翡 观 的 策略 使 得 发 生 超时 后 TCP 不 
仅 重 传 超时 的 报 文 段 ， 而 且 还 要 重 传 该 报 文 段 之 后 可 能 并 没有 发 生 超 时 的 报 文 段 。 该 策略 
实际 上 做 了 最 坏 的 假设 ， 即 所 有 报 文 段 都 丢失 了 。 该 策略 的 缺点 是 它 可 能 不 必要 地 重 传 了 
那些 已 经 被 成 功 接收 的 报 文 段 。 另 一 个 策略 是 比较 乐观 的 ， 它 仅 重 传 那些 发 生 了 超时 的 报 
文 段 ， 它 认为 只 有 一 个 报 文 段 丢失 了 。 这 种 乐观 策略 的 缺点 是 运行 比较 慢 ， 当 拥塞 严重 
时 ， 可 能 会 丢失 连续 的 一 系列 报 文 段 ,但 只 有 收 到 对 先前 报 文 段 重 传 的 确认 时 ， 才 会 发 现 
报 文 段 丢 失 。 因 此 对 每 个 报 文 段 消耗 了 一 个 RTT， 直 到 重 传 了 丢失 报 文 段 序列 中 的 所 有 
报 文 段 。 使 用 SACK 选项 ， 可 以 使 发 送 方 采用 一 种 更 好 的 策略 : 只 重 传 那些 能 够 填充 可 选 
确认 报 文 段 间 隅 的 报 文 段 。 

顺便 说 一 下 ， 这 些 延伸 并 不 是 所 有 需求 。 在 下 一 章 讨论 TCP 如 何 处 理 拥塞 时 会 看 到 
更 多 的 延展 。 互 联网 编号 分 配 机 构 (IANA) 跟踪 所 有 被 定义 为 TCP (和 许多 其 他 互联 网 
协议 ) 的 选项 。 大 约 有 30 个 TCP 的 选项 是 在 编写 的 时 候 定义 的 《尽管 大 部 分 是 实验 性 的 
或 过 时 的 )。 请 参阅 在 本 章 末 尾 参考 资料 中 IANA 注册 协议 编号 的 链接 。 


5.2.9 性 能 


回忆 在 第 1 章 介绍 的 评估 网 络 性 能 的 两 个 度量 标准 : 时 延 和 吞吐 量 。 正 如 在 那个 讨论 
中 提 到 的 ， 这 些 度量 值 不 仅 受 底层 硬件 的 影响 (例如 传播 延迟 和 链 路 的 带宽 )， 而 且 还 受 
软件 开销 的 影响 。 现 在 我 们 有 一 个 完整 的 基于 软件 的 协议 图 ， 它 包含 可 供 选择 的 传输 协 
议 ， 我 们 可 以 讨论 如 何 有 效 地 测量 它 的 性 能 。 这 种 测量 的 重要 性 在 于 它们 代表 了 应 用 程序 
所 看 到 的 性 能 。 

我 们 按照 实验 结论 报告 的 方式 开始 描述 实验 方法 ， 包 括 实验 中 用 到 的 设备 。 我 们 的 实 
验 设备 为 : 每 个 工作 站 双核 CPU, 2.4GHz Xeon 处 理 器 ，Linux 操作 系统 。 为 了 使 速度 
达到 1Gbps 以 上 ， 每 台 机 器 使 用 一 对 以 太 网 适配器 〈 标 记 的 网 卡 ， 用 于 网 络 接口 卡 )。 以 
太 网 的 跨度 是 一 个 机 房 ， 所 以 传播 不 是 问题 ， 这 使 本 实验 只 测量 处 理 器 /软件 的 开销 。 一 
个 运行 在 套 接 字 接口 上 的 测试 程序 只 是 简单 地 尝试 尽快 发 消息 。 图 5-11 说 明了 该 实验 的 
设置 。 

你 可 能 注意 到 ， 由 于 人 硬件、 连接 速度 和 操作 系统 的 原因 ， 该 实验 设置 并 不 理想 。 本 节 
的 重点 不 是 演示 一 个 特定 协议 能 够 运行 得 多 快 ， 而 是 描述 测量 和 报告 协议 性 能 的 通用 
FIR 

对 不 同 大 小 的 消息 使 用 称 为 TTCP 的 基准 测试 工具 进行 吞吐 量 测试 。 吞 吐 量 测试 的 结 
果 如 图 5-12 所 示 。 在 这 个 图 中 要 注意 的 关键 事情 是 ， 吞 吐 量 随 报 文 长 度 的 增加 而 增加 。 
这 是 讲 得 通 的 ， 因 为 每 个 报 文 包含 一 定 的 开销 ， 所 以 较 大 的 报 文 意味 着 将 这 个 开销 分 挫 到 
更 多 的 字 节 上 。 乔 叶 量 曲线 在 大 约 1KB 的 位 置 变 平 ， 从 这 一 点 开始 ， 每 个 报 文 的 开销 与 
协议 栈 处 理 的 大 量 字 节 相 比 变 得 无 关 紧 要 。 
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图 5-11 测试 系统 : 两 个 Linux 工作 站 图 5-12 对 不 同 报 文 长 度 ， 用 TCP 
和 一 对 Gbps 级 以 太 网 链 路 测量 的 吞吐 量 


值得 注意 的 是 ， 最 大 吞吐 量 小 于 2Gbps， 是 这 个 设置 中 的 有 效 链接 速度 。 对 结果 的 进 
一 步 测 试 和 分 析 需 要 找 出 瓶颈 (或 者 是 否 有 多 个 因素 影响 )。 例 如 ，CPU 负载 指标 可 能 指 
出 瓶颈 是 CPU 还 是 内 存 带宽 、 适 配器 性 能 或 者 其 他 问题 。 

我 们 同时 还 注意 到 在 这 个 测试 中 网 络 基本 上 是 “完美 ”的 。 基 本 上 没有 延 时 和 丢失 ， 
唯一 影响 性 能 的 就 是 TCP 的 实现 机 制 和 工作 站 的 软 硬 件 环境 。 相 比 之 下 ， 大 多 数 时 候 我 
们 应 对 的 是 不 够 完善 的 网 络 : 特别 是 带宽 受 限 、 最 后 一 英里 连接 和 易 丢 包 的 无 线 连 接 。 在 
了 解 这 些 连接 如 何 影响 TCP 性 能 之 前 ， 我 们 需要 理解 TCP 如 何 解决 拥塞 ， 这 正 是 6.3 节 
的 主题 。 

自从 有 网 络 以 来 ， 网 络 链 路 的 增 速 已 经 无 数 次 影响 到 网 络 发 送 给 应 用 程序 的 数据 。 例 
如 ， 美 国 在 1989 年 启动 I 不 仅 是 使 链 路 和 
交换 机 速度 达到 甚至 超过 1Gbps， 而 是 希望 将 这 样 的 吞吐 量 直 接 传送 给 单个 应 用 程序 进 
程 。 这 遇 到 很 多 实际 的 问题 〈 比 如 ， 网 络 适配器 、 工 作 站 的 体系 结构 以 及 操作 系统 都 必须 
在 设计 时 考虑 到 网 络 应 用 程序 的 吞吐 量 )， 同 时 证 明了 很 多 难题 也 没 那么 复杂 。 所 有 问题 
中 最 让 人 关心 的 是 现存 的 传输 协议 ， 特 别 是 TCP 可 能 达 不 到 千 兆 位 操作 。 

事实 证 明 ，TCP 紧 跟 高 速 网 络 和 应 用 不 断 增加 的 需求 ， 为 解决 高 带宽 延迟 积 而 引入 
滑动 窗口 就 是 一 个 重要 的 例子 。 不 过 ，TCP 的 理论 性 能 和 实际 表现 还 是 有 很 大 差异 。 简 
单 的 问题 也 会 导致 性 能 降低 ， 比 如 数据 从 网 络 适配器 传送 到 应 用 程序 的 过 程 中 多 次 不 必要 
地 复制 数据 ， 又 如 当 带 宽 延 迟 积 很 大 时 缓存 空间 不 足 。 同 时 ，TCP 的 动态 变化 也 很 复杂 
(在 下 一 章 会 更 加 明显 )。 网 络 行为 和 应 用 行为 中 微小 的 相互 作用 以 及 TCP 协议 自身 原因 
都 能 使 其 突然 改变 性 能 。 

对 于 我 们 的 目的 来 说 ，TCP 在 网 速 增加 的 同时 表现 良好 这 一 点 应 该 引起 注意 。 当 
TCP 遇 到 一 些 限制 时 (正常 来 说 是 拥 寨 、 ee eh 研究 者 急于 
找到 解决 方案 。 REAREA 经 探讨 过 其 中 的 一 些 ， 在 下 一 章 我 们 会 研究 更 多 方案 。 


5. 2. 10 其 他 设计 选择 
尽管 已 经 证 明 TCP 是 一 个 健壮 的 协议 ， 能 够 满足 广泛 的 应 用 需要 ， 但 传输 协议 的 设 
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计 空 间 是 相当 大 的 。 在 此 设计 空间 上 ，TCP 绝 不 是 唯一 的 有 效 选 择 ， 我 们 通过 考查 另 一 
些 设计 选择 来 结束 对 TCP 的 讨论 。 虽 然 对 TCP 的 设计 者 为 什么 做 这 些 选 择 给 出 了 解释 ， 
但 我 们 要 观察 针对 另 一 些 选择 而 设计 的 传输 协议 和 未 来 可 能 出 现 的 传输 协议 。 

第 一 ， 本 书 的 第 1 章 就 提出 ， 至 少 有 两 类 令 人 感 兴 趣 的 传输 协议 : 像 TCP 一 样 的 面 
向 流 的 协议 和 像 RPC 一 样 的 请 求 / 应 答 协 议 。 换 名 话说， 我 们 已 经 隐 含 地 将 设计 空间 分 为 
两 半 且 将 TCP 放 在 面向 流 的 那 一 半 。 我 们 可 以 进一步 将 面向 流 的 协议 分 为 两 组 : 可 靠 的 
和 不 可 靠 的 。 前 者 包括 TCP， 后 者 更 适 于 交互 式 的 视频 应 用 ， 它 宁可 丢弃 帧 也 不 引发 与 重 
传 相 关 的 延迟 。 

建立 传输 协议 分 类 学 是 非常 有 趣 的 ， 并 可 以 继续 越 分 越 细 ， 但 世界 并 不 是 我 们 喜欢 的 
那样 黑白 分 明 。 例 如 ， 考 虑 TCP 作为 传输 协议 对 请 求 /应 答应 用 的 适用 性 。TCP 是 一 个 全 
双 工 的 协议 ， 所 以 很 容易 打开 客户 端 和 服务 器 间 的 TCP 连接 ， 在 一 个 方向 发 送 请 求 消息 ， 
而 在 另 一 个 方向 发 送 应 答 消 息 。 然 而 ,存在 两 种 复杂 情况 。 第 一 种 情况 是 TCP 为 面向 字 
节 (byte) 的 协议 而 不 是 面向 数据 报 (message) 的 协议 ， 但 请 求 / 应 答应 用 总 是 处 理 报 
文 。( 我 们 马上 就 仔细 探讨 字 节 和 数据 报 的 问题 .) 第 二 种 情况 是 ， 在 请 求 消息 和 应 答 消 息 
都 能 包含 在 一 个 网 络 分 组 中 的 情况 下 ， 一 个 设计 良好 的 请 求 / 应 答 协 议 仅 需要 两 个 分 组 来 
完成 交换 ， 而 TCP 至 少 需要 9 个 分 组 ， 其 中 3 个 用 于 建立 连接 ，2 个 用 于 消息 交换 ，4 个 
用 于 断 开 连接 。 当 然 ， 如 果 请 求 和 应 答 消 息 大 到 足以 需要 多 个 网 络 分 组 〈 例 如 ， 需 要 用 
100 个 分 组 来 发 送 100 000 字 节 的 应 答 消 息 )， 那 么 建立 和 断 开 连接 的 开销 就 无 关 紧 要 了 。 
换 句 话说 ， 并 不 总 是 某 个 协议 不 能 支持 某 一 特定 功能 这 样 一 种 情况 ， 而 有 时 是 在 特定 情况 
下 某 种 设计 比 另 一 种 设计 更 有 效 。 

第 二 ， 正 如 刚 提 到 的 ， 你 可 能 会 问 为 什么 TCP 选择 提供 可 靠 的 字 节 Cyto 流 服务 ， 
而 不 提供 可 靠 的 数据 报 (message) 服务 ， 数 据 报应 该 是 要 进行 记录 交换 的 数据 库 应 用 的 
自然 选择 。 对 这 个 问题 有 两 个 答案 。 第 一 个 是 ， 面 向 数据 报 的 协议 必须 通过 定义 确立 一 个 
报 文 的 长 度 上 界 。 毕 竞 ， 一 个 无 限 长 的 报 文 就 是 一 个 字 节 流 。 但 是 对 于 协议 选择 的 任何 一 
个 长 度 上 界 ， 总 会 有 某 个 应 用 程序 想 要 发 送 更 大 的 报 文 ， 使 得 传输 协议 无 用 ， 并 且 迫 使 应 
用 程序 实现 它 自己 的 类 似 传输 的 服务 。 第 二 个 是 ， 虽 然 面 向 数据 报 的 协议 显然 更 适用 于 彼 
此 间 要 发 送 记录 的 应 用 ， 但 它 可 以 很 容易 地 在 字 节 流 中 插入 记录 边界 来 实现 这 一 功能 ， 如 
5.2.7 节 所 述 。 

在 TCP 设计 中 做 出 的 第 三 个 决定 就 是 应 用 程序 按 序 传 输 字 节 流 。 这 意味 着 ， 它 可 以 
从 网 络 中 接收 乱 序 字 节 流 ， 等 待 补 齐 丢 失 的 字 节 。 这 对 于 很 多 应 用 很 有 帮助 ， 但 对 于 能 够 
自己 处 理 乱 序 字 节 的 应 用 就 没 多 大 用 处 。 举 个 简单 的 例子 ， 包 含 多 个 嵌入 图 像 的 网 页 不 需 
要 在 所 有 图 像 按 序 收 到 后 才 开 始 显 示 在 页 面 上 。 还 有 一 类 应 用 希望 在 应 用 层 来 处 理 乱 序数 
据 ， 以 便当 分 组 丢失 或 乱 序 时 更 快 地 获取 数据 。 为 支持 这 些 应 用 而 产生 了 另 一 种 IETF 标 
准 传输 协议 ， 如 流 控 制 传输 协议 (Stream Control Transmission Protocol, SCTP), SCTP 
协议 提供 部 分 有 序 传输 服务 ， 而 不 是 严格 有 序 的 传输 服务 。 (SCTP 还 有 一 些 与 TCP 不 同 
的 设计 决策 ， 包 括 消 息 定向 和 单一 会 话 支持 多 IP 地 址 。 详 见 “ 扩 展 阅 读 ”,) 

第 四 ，TCP 选择 实现 显 式 的 建立 / 断 开 阶段 ， 但 这 不 是 必需 的 。 对 建立 连接 来 说 ， 它 
显然 可 以 与 第 一 个 数据 消息 一 起 发 送 全 部 必要 的 连接 参数 。TCP 之 所 以 选择 更 保守 的 方 
法 是 要 让 接收 方 在 任何 数据 到 达 之 前 有 机 会 拒绝 连接 。 对 于 断 开 连接 来 说 ， 虽 能 简单 地 关 
闭 一 个 很 长 一 段 时 间 不 活动 的 连接 ， 但 这 对 像 Telnet 那样 一 次 连接 要 保持 几 个 星期 的 应 
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用 来 说 会 使 问题 复杂 化 ， 这 样 的 应 用 将 被 强制 要 求 发 送 带 外 的 “存留 ”消息 以 防止 男 一 端 
的 连接 状态 消失 。 

最 后 ，TCP 是 一 个 基于 窗口 的 协议 , 但 这 不 是 唯一 的 可 能 性 。 可 供 选 择 的 有 基于 过 
3 (rate-based) 的 设计 ， 接收 方 通 知 发 送 方 原意 接收 的 输入 数据 的 速率 ， 速 率 用 每 秘 字 
节 数 或 分 组 数 表 示 。 例 如 ， 接 收 方 可 能 通知 发 送 方 它 每 秒 能 处 理 100 个 分 组 。 在 窗口 和 速 
率 间 存 在 一 个 有 趣 的 对 偶 性 ， 因 为 窗口 中 的 分 组 〈 字 节 ) 数 除 以 RTT 恰好 就 是 速率 。 例 
如 ， 一 个 10 个 分 组 长 的 窗口 大 小 和 一 个 100 ms 的 RTT 意味 着 允许 发 送 方 以 每 秒 传输 100 
个 分 组 的 速率 传送 。 通 过 增 大 或 减 小 窗口 的 尺寸 ， 接 收 方 能 有 效 地 提高 和 降低 发 送 方 的 传 
输 速率 。 在 TCP 中 ， 这 个 信息 在 每 个 数据 段 的 ACK 的 AdvertisedWindow 字段 中 被 反馈 
给 发 送 方 。 基 于 速率 的 协议 的 关键 问题 之 一 是 每 隔 多 和 久 将 期 望 的 速率 (一段 时 间 后 可 能 改 
AE) 传达 给 源 主 机 : 是 对 每 个 分 组 或 每 隔 一 个 RTT 回 送 ， 还 是 仅 当 速率 改变 时 回 送 ?” 刚 
才 虽 然 在 流量 控制 的 环境 中 讨论 了 窗口 和 速率 ， 但 在 第 6 章 将 要 讨论 的 拥塞 控制 环境 下 它 
们 将 是 一 个 更 有 争议 的 问题 。 
5.3 远程 过 程 调用 

正如 在 第 1 章 中 所 讨论 的 ， 应 用 程序 使 用 的 通用 通信 模式 是 请 求 / 应 答 模式 ， 也 称 为 
消息 事务 : 客户 端 向 服务 器 发 送 一 条 请 求 消息 ， 服 务 器 用 一 客户 端 服务 器 


条 应 答 消息 响应 ， 而 客户 端 阻塞 ( 挂 起 执行 ) 等待 这 个 应 | ae os 
答 。 图 5-13 说 明了 在 这 样 的 消息 事务 中 客户 端 和 服务 器 的 基 。。 一 站 


支持 请 求 /应 答 模 式 的 传输 协议 不 只 是 在 一 个 方向 上 传 pi - 


递 UDP 报 文 ， 在 另 一 个 方向 上 也 传递 UDP 报 文 。 它 需要 正 | 阻塞 
确 处 理 在 远程 主机 上 的 标识 进程 ， 并 建立 起 请 求 和 应 答 之 间 

的 联系 。 它 还 要 克服 本 章 开始 的 问题 中 概述 的 底层 网 络 的 所 图 5-13 RPC 的 时 间 线 
有 限制 。 虽 然 TCP 通过 提供 一 个 可 靠 的 字 节 流 服务 克服 了 这 些 限制 但 它 也 不 能 很 好 地 
配合 请 求 /应 答 模 式 ， 因 为 只 为 交换 一 对 消息 就 要 创建 TCP 连接 看 起 来 似乎 矫 枉 过 正 。 本 
节 描 述 第 三 种 传输 协议 ， 称 为 远程 过 程 调用 (Remote Procedure Call, RPC), ES WR 
请 求 /应 答 报 文 交换 的 应 用 的 需求 更 匹配 。 


5.3.1 RPC 基础 


实际 上 RPC 不 仅仅 是 一 个 协议 ， 它 是 构造 分 布 式 系统 的 一 种 流行 机 制 。RPC 之 所 以 
流行 ， 是 因为 它 基 于 本 地 过 程 调用 语义 : 应 用 程序 首先 调用 一 个 过 程 ， 不 管 它 是 本 地 调用 
还 是 远程 调用 ， 接 着 阻塞 直到 调用 返回 结果 。 应 用 程序 开发 者 可 能 没有 意识 到 调用 是 本 地 
的 还 是 远程 的 ， 因 此 任务 被 大 大 简化 了 。 在 面向 对 象 的 语言 中 ， 当 调用 过 程 是 远程 对 象 方 
法 时 ，RPC 被 认为 是 远程 方法 范例 (RMI)。 虽 然 这 听 起 来 可 能 比较 简单 ， 但 有 两 个 主要 
问题 使 得 RPC 比 本 地 过 程 调用 更 复杂 : 

。. 调 用 进程 和 被 调用 进程 间 的 网 络 比 一 台 计 算 机 的 情况 有 更 复杂 的 特性 。 例 如 ， 它 

可 能 限制 消息 的 大 小 ， 并 且 有 丢失 和 重 排 消息 的 可 能 。 
。 运 行 调用 和 被 调用 进程 的 计算 机 可 能 有 明显 不 同 的 体系 结构 和 数据 表示 格式 。 
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这 样 ， 一 个 完整 的 RPC 机 制 实际 上 包含 两 个 主要 部 分 : 

1) 协议 ， 用 于 管理 客户 端 与 服务 器 进程 之 间 发 送 的 消息 以 及 处 理 底 层 网 络 的 潜在 不 
合理 特性 。 

2) 编程 语言 和 编译 程序 ， 它 支持 在 客户 端 把 参数 封装 进 一 个 请 求 报 文 ， 并 在 服务 器 
上 把 报 文 翻译 成 原来 的 参数 ， 对 返回 值 也 能 做 类 似 的 处 理 CR PC 机 制 中 的 这 部 分 通常 称 为 
柱 编 译 器 (stub compiler)). 

图 5-14 描述 了 当 一 个 客户 端 调 用 一 个 远程 过 程 时 发 生 的 事情 。 首 先 ， 客 户 端 调用 过 
程 的 本 地 桩 ， 并 把 过 程 需要 的 参数 传递 给 它 。 桩 把 参数 翻译 为 一 个 请 求 消息 ， 接 着 调用 
RPC 协议 把 这 个 请 求 消息 发 送 给 服务 器 ， 这 样 桩 隐藏 了 过 程 是 在 远 端的 事实 。 在 服务 器 
端 ，RPC 协议 把 这 个 请 求 消息 传递 给 服务 器 桩 (有 时 称 为 框架 (skeleton))， 由 它 负责 
消息 翻译 为 过 程 的 参数 并 调用 本 地 过 程 。 服 务 器 过 程 完 成 后 ， 它 把 执行 结果 送 给 服务 器 
桩 ， 服 务 器 桩 将 结果 封装 到 应 答 消 息 中 ， 并 把 它 原 封 不 动 地 送 到 RPC 协议 以 便 发 送 回 客 
户 端 。 客 户 端 的 RPC 协议 将 收 到 的 消息 上 传 给 客户 端 柱 ， 客 户 端 桩 将 消息 翻译 成 返回 值 
送 给 客户 端 程序 。 











图 5-14 完整 的 RPC 机 制 


本 节 只 考虑 RPC 机 制 与 协议 相关 的 方面 。 也 就 是 说 ,忽略 桩 而 着 眼 于 客户 端 和 服务 
器 之 间 传 送 消息 的 RPC 协议 ， 有 时 叫 请 求 /应 答 协议 。 参 数 和 消息 之 间 的 相互 转换 将 在 第 
7 章 描 述 。 

由 于 RPC 这 个 术语 只 是 指 一 类 协议 ,而 不 是 像 TCP 那样 是 一 个 特定 的 标准 ， 因 此 
RPC 协议 会 随 它 所 执行 的 功能 而 有 所 不 同 。TCP 是 可 靠 的 字 节 流 协 议 ， 而 RPC 不 是 ， 没 
有 一 个 绝对 可 靠 的 RPC 协议。 因此， 本 节 将 讨论 不 同 于 前 面 的 其 他 设计 选择 。 

1. RPC 中 的 标识 符 

任何 RPC 协议 必须 执行 两 个 功能 : 

。 提供 一 个 命名 空间 来 唯一 标识 被 调用 的 过 程 。 
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。 将 每 一 个 应 答 报 文 与 请 求 报 文 相 匹 配 。 

第 一 个 问题 类 似 于 在 网 络 中 识别 节点 的 问题 ， 正 如 在 前 面 章 节 中 所 介绍 的 一 样 (例如 
第 4 章 中 的 IP 地 址 )。 进 行 识别 的 一 种 设计 选择 是 命名 空间 是 扁平 的 还 是 分 层 的 。 扁 平 的 
命名 空间 仅仅 为 每 个 过 程 分 配 一 个 唯一 的 、 无 结构 的 标识 符 (例如 一 个 整数 )， 这 个 数字 
标识 符 被 装载 到 RPC 请 求 报 文 的 一 个 字段 中 。 这 就 需要 一 个 中 心 协调 者 以 避免 为 两 个 不 
同 的 过 程 指派 相同 的 过 程 标识 符 。 此 外 ， 协 议 也 可 以 实现 一 个 分 层 的 命名 空间 ， 类 似 于 文 
件 路 径 名 ， 只 需要 在 同一 个 文件 目录 下 具有 唯一 的 文件 名 即 可 。 这 种 方法 简化 了 过 程 命 
名 ， 能 够 确保 过 程 名 的 唯一 性 。RPC 分 层 的 名 字 空 间 可 以 通过 在 请 求 报 文 中 定义 一 组 字段 
来 实现 ， 在 两 层 或 三 层 的 命名 空间 中 每 层 都 有 一 个 名 字 。 

将 应 答 报 文 与 请 求 报 文 匹配 的 关键 是 使 用 报 文 ID 字段 来 识别 请 求 - 应 答对 。 应 答 报 文 
的 ID 字段 与 请 求 报 文 的 ID 字段 具有 相同 的 值 。 当 客户 端 RPC 模块 收 到 应 答 报 文 时 ， 它 
使 用 报 文 ID 来 搜索 相应 的 请 求 。 为 了 使 RPC 事务 对 调用 者 来 说 像 本 地 过 程 调用 一 样 ， 在 
收 到 应 答 报 文 前 调用 者 被 阻塞 (例如 使 用 信号 量 )。 接 收 到 应 答 报 文 时 ， 基 于 应 答 报 文中 
的 请 求 号 来 识别 被 阻塞 的 调用 者 ， 从 应 答 报 文中 获取 远程 过 程 的 返回 值 ， 将 调用 者 解除 阻 
塞 ， 以 便 它 能 返回 值 。 

RPC 中 的 另 一 个 挑战 是 处 理 非 预期 的 响应 ， 这 是 和 报 文 ID 相关 联 的 。 例 如 ， 考 
虑 下 面 的 实际 情况 ， 客 户 端 发 送 报 文 ID 为 0 的 请 求 报 文 ， 之 后 死机 并 重启 ， 然 后 发 
送 另 一 个 报 文 ID 也 为 0 的 不 相关 报 文 。 服 务 器 不 可 能 知道 客户 机 死机 并 重启 了 ， 因 
此 它 收 到 报 文 ID 为 0 的 重复 报 文 后 将 其 丢弃 ， 于 是 客户 端 就 不 可 能 收 到 对 于 第 二 个 
请 求 的 响应 。 

解决 该 问题 的 一 种 方法 是 使 用 启动 ID (boot ID)。 机 器 的 启动 ID 是 数字 .每 次 机 
器 重新 启动 后 它 会 增加 ， 启 动 后 从 非 易 失 性 存储 设备 〈 如 磁盘 或 内 存 驱动 器 ) 中 读 取 
该 ID 号 ， 增 加 其 值 ， 然 后 在 启动 过 程 中 写 回 到 存储 设备 中 ,之 后 该 ID 号 会 被 放 在 该 
主机 所 发 送 的 每 一 个 报 文中 。 如 果 一 个 报 文具 有 旧 的 报 文 ID 但 却 有 新 的 启动 ID， 则 
会 被 识别 为 一 个 新 的 报 文 。 这 样 ， 报 文 ID 和 启动 ID 组 合 起 来 构成 了 每 一 个 事务 的 唯 
— ID, 


相关 主题 

RPC 位 于 哪 一 层 ? 

“这 是 哪 一 层 ” 的 问题 再 次 显露 出 来 。 对 很 多 人 来 说 ， 特 别 是 那些 持 协 议 体 系 结构 应 
该 严格 分 层 观点 的 人 ，RPC 是 在 传输 层 协议 (通常 是 UDP) 之 上 实现 的 ， 所 以 它 自己 
(按照 定义 ) 不 能 算是 一 个 传输 层 协 议 。 但 是 因特网 需要 有 RPC 协议 ， 因 为 它 提供 了 一 个 
5 TCP 和 UDP 所 提供 的 服务 根本 不 同 的 进程 到 进程 的 服务 。 然 而 ， 对 这 一 建议 通常 的 反 
应 是 因特网 体系 结构 并 不 禁止 网 络 设计 人 员 在 UDP 之 上 实现 他 们 自己 的 RPC 协议 。 不 管 
因特网 是 否 应 该 具有 你 所 支持 的 RPC 协议 ， 重 要 的 是 在 因特网 体系 结构 上 实现 RPC 的 方 
法 与 RPC 是 否 是 一 个 传输 层 协 议 无 关 。 

有 趣 的 是 ， 另 有 一 些 人 认为 RPC 是 世界 上 最 有 意义 的 协议 ,而 TCP/IP 只 不 过 是 当 你 想 
到 “脱离 站 点 ”时 才 做 的 事 。 这 是 操作 系统 领域 中 的 主流 观点 ， 人 们 已 经 构造 了 无 数 分 布 式 
系统 的 操作 系统 内 核 ， 这 些 系统 只 包含 一 个 运行 在 网 络 设备 驱动 程序 之 上 的 协议 一 一 你 可 以 
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猜 到 就 是 RPC 协议 。 

我 们 的 观点 是 ， 任何 提供 进程 到 进程 服务 而 不 是 节点 到 节点 或 主机 到 主机 服务 的 协 
议 ， 都 可 称 作 传输 层 协 议 。 这 样 ，RPC 就 是 一 个 传输 层 协 议 ， 但 它 可 以 在 其 他 传输 层 协议 
之 上 来 实现 。 





2. 克服 网 络 局 限 性 
RPC 协议 通常 执行 额外 的 功能 来 应 对 网 络 信道 不 顺畅 的 情况 ， 两 个 主要 功能 是 : 
。 提供 可 靠 报 文 传输 机 制 。 

。 通过 分 片 和 重组 支持 大 尺寸 的 报 文 。 

RPC 协议 需要 提供 可 靠 性 ， 因 为 其 下 层 协议 (例如 UDP/IP) .没有 提供 可 靠 性 ， 或许 
还 要 快速 或 有 效 地 从 故障 中 恢复 ， 和 否则 故障 最 终 会 由 下 层 协议 修 
复 。RPC 协议 通过 类 似 于 TCP 中 的 确认 和 超时 机 制 来 实现 可 靠 
E. 其 基本 的 算法 很 直观 ,如 图 5- 15 所 示 。 客 户 机 发 送 一 个 请 
求 报 文 ， 服 务 器 对 其 进行 确认 ， 过程 执行 完 后 ， 服 务 器 发 送 一 
应 答 报 文 ， 客 户 机 对 该 应 答 进 行 确认 。 

承载 数据 〈 请 求 报 文 或 应 答 报 文 ) 或 ACK (确认 ) 的 报 文 
在 网 络 中 可 能 会 丢失 ,为 了 应 对 这 种 可 能 性 ， 客 户 端 和 服务 器 对 

它们 所 发 送 的 每 一 个 报 文 都 会 保留 一 份 副 本 ， 直 到 与 其 相应 的 
ACK 已 经 收 到 。 每 一 方 也 都 会 维持 一 个 RETRANSMIT ( 重 传 ) 
定时 器 ， 超 时 后 就 重 传 报 文 。 在 放弃 和 释放 报 文 之 前 双方 会 重新 ”图 5-15 可 靠 RPC 协议 
启动 定时 器 并 再 一 次 协商 定时 器 的 取 值 。 的 简单 时 间 线 

如 果 RPC 客户 端 收 到 了 一 个 应 答 报 文 ， 那么 服务 器 一 定 已 经 收 到 了 相应 的 请 求 报 
文 ， 因 此 应 答 报 文本 身 就 是 一 个 隐 式 的 确认 ， 无 需 服 务 絮 再 专门 发 送 确 认 报 文 。 类 似 
地 ， 请求 报 文 可 以 隐 式 地 确认 先前 的 应 答 报 文 一 一 假设 协议 要 求 请 求 - 应 答 事 务 是 连续 
的 ， 即 一 个 事务 在 下 一 个 事务 开始 之 前 必须 已 经 完成 。 不 幸 的 是 ， 这 种 连续 性 会 严重 限 
制 RPC 的 性 能 。 

对 于 RPC 协议 来 说 ， 摆 脱 这 种 困境 的 一 种 方法 是 使 用 信道 (channe) 抽象 。 在 一 
个 给 定 的 信道 中 ， 请 求 / 应 答 事 务 是 连续 的 〈 在 给 定 信道 的 某 一 时 刻 只 有 一 个 事务 是 活 
跃 的 )， 但 同时 可 以 有 多 个 信道 。 每 个 报 文 包含 一 个 信道 
ID 字段 来 指明 其 所 属 的 信道 。 如 果 先 前 未 被 确认 过 的 话 ， 
则 在 给 定 信道 中 的 一 个 请 求 报 文 隐 式 地 确认 该 信道 中 先前 
的 应 答 报 文 。 如 果 应 用 程序 同时 有 多 个 请 求 / 应 答 事 务 需 
要 和 服务 器 交互 的 话 〈 应 用 程序 有 多 个 线程 )， 那 么 它 可 
以 打开 和 服务 器 之 间 的 多 个 信道 。 如 图 5-16 Pitan. me 
报 文 对 请 求 报 文 进行 确认 ， 接 下 来 的 请 求 报 文 对 先前 的 应 
答 报 文 进行 确认 。 注 意 ， 这 里 我 们 看 到 了 称 为 并 发 逻辑 信 
道 的 类 似 方法 ， 在 2. 5. 3 节 中 该 方法 用 于 改善 停止 -等 待 
可 靠 传 输 机 制 的 性 能 。 图 5-16 使 用 隐 式 确认 的 可 靠 

RPC 必须 考虑 的 另 一 个 复杂 问题 是 服务 器 可 能 需要 花 RPC 协议 的 时 间 线 





客户 端 服务 器 
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WIRKTE OR h EGR. t a pE Er E RE FE PA E M HTT FE S ih 
溃 。 这 里 所 说 的 时 间 段 是 在 服务 器 对 请 求 发 送 了 确认 之 后 ， 但 在 发 送 应 答 之 前 ， 为 了 使 客 
户 端 能 够 对 响应 慢 的 服务 器 和 已 死机 的 服务 器 进行 区 分 ，RPC 客户 端 周期 性 地 向 服务 大 发 
RS “PRATAP AIS?” FRC. WR AEF ACK 对 该 报 文 进行 响应 。 另 一 种 办 法 是 ， 服 务 硕 辐 
客户 端 发 送 “ 我 仍然 活跃 着 ” 报 文 ， 而 无 需 客 户 端 首先 发 送 报 文 。 客 户 端 首先 发 出 询问 的 
方法 具有 更 好 的 扩展 性 ， 因 为 它 把 该 任务 〈 管 理 定 时 器 ) 放 在 了 客户 端 。 

RPC 的 可 靠 性 包括 最 多 一 次 语义 (at-most-once semantics). WE UE Æ Mt FAR PP sig 
发 送 的 每 个 请 求 报 文 ， 最 多 只 有 一 个 报 文 副本 被 传递 到 服务 器 。 客户 端 每 次 调用 远程 
过 程 时 ， 服 务 器 上 的 过 程 最 多 被 调用 一 次 。 我 们 说 “最 多 一 次 ”而 不 是 “正好 一 次 ”、 
因为 总 有 可 能 网 络 或 者 服务 器 出 故障 ， 这 时 即使 传递 请 求 报 文 的 一 个 副本 也 是 不 可 
能 的 。 

为 了 实现 最 多 一 次 语义 ，RPC 服务 器 端 必 须 识 别 重复 请 求 并 包 略 之 ， 因 此 它 必 须 维 护 
一 些 识别 先前 请 求 的 状态 信息 。 一 种 方法 是 使 用 序列 号 识别 请 求 ， 这 样 服务 需 只 要 记 住 最 
近 的 序列 号 就 可 以 了 。 不 可 的 是 ， 这 样 就 限制 了 RPC 同时 只 能 给 一 个 服务 胡 发 送 一 个 请 
求 ， 因 为 在 带 有 下 一 个 序列 号 的 请 求 被 传输 之 前 先前 的 请 求 必 须 已 经 完成 。 信 道 提供 了 一 
种 解决 办 法 ， 通 过 记 住 每 个 信道 的 当前 序列 号 ， 服 务 器 能 够 识别 重复 的 请 求 ， 而 不 必 限 制 
客户 端 同 时 只 能 发 送 一 个 请 求 。 

正如 “最 多 一 次 ” 听 起 来 一 样 明显 ， 并 不 是 所 有 RPC 协议 都 支持 这 种 行为 。 一 些 协 
议 支 持 所 谓 的 零 次 或 多 次 (zero-or-more) 语义 ， 也 就 是 说 ， 客 户 端的 每 次 调用 导致 远程 
过 程 被 调用 零 次 或 多 次 。 不 难 理解 ， 这 种 方式 会 引起 问题 ， 因 为 远程 过 程 的 每 次 调用 都 可 
能 会 改变 一 些 本 地 的 状态 变量 〈 例 如 ， 增 加 计数 器 的 值 ) 或 造成 外 部 可 见 的 副作用 〈 例 
W, ASH). AWM. Wie eA A RF (idempotent) 的 ， 即 多 次 
调用 产生 的 效果 和 一 次 调用 一 样 ， 那 么 RPC BL dill BAS wh 3c FF ie & — RAM A Ef 
单 〈 可 能 更 快速 ) 的 实现 就 足够 了 。 

作为 可 靠 传输 协议 ，RPC 需要 实现 报 文 分 片 和 重组 有 两 个 原因 : 一 是 下 层 协议 栈 没 有 
提供 该 功能 ;二 是 通过 RPC 协议 来 实现 该 功能 会 更 有 效 。 考 虑 RPC 在 UDP/IP 之 上 依赖 
于 IP 实现 分 片 和 重组 的 情况 ， 如 果 在 特定 的 时 间 段 内 报 文 的 一 个 分 片 传输 失败 ,那么 IP 
丢弃 该 报 文 的 所 有 分 片 ， 从 而 造成 该 报 文 的 丢失 ， 最终 RPC 协议 假设 它 实现 了 可 靠 性 ) 
发 生 超时 并 重 传 该 报 文 。 与 此 相反 ， 考 虑 RPC 协议 自身 实现 分 片 和 重组 的 情况 ， 每 个 分 
片 都 有 各 自 的 ACK (确认 ) 或 NACK (EU), 丢失 的 分 片 会 被 更 快 地 检测 到 并 重 传 ， 这 
样 就 只 有 丢失 的 分 片 需 要 重 传 ， 而 不 必 重 传 整个 报 文 。 

3. 同步 协议 与 异步 协议 

描绘 协议 特性 的 一 种 方式 是 说 明 它 是 同步 的 (synchronous) 还 是 异步 的 〈asyn- 
chronous)。 这 两 个 术语 的 具体 含义 依赖 于 它们 用 于 协议 层次 结构 中 的 哪 一 层 。 在 传输 层 ， 
最 好 将 它们 看 成 是 一 些 可 能 性 的 范围 ， 而 不 是 两 种 可 能 性 之 一 ， 这 些 可 能 性 中 的 任意 一 个 
的 关键 属性 是 发 送 报 文 的 操作 返回 后 ， 发 送 方 知道 多 少 信息 。 换 句 话 说 ， 如 果 假 设 一 个 应 
用 程序 调用 了 传输 协议 上 的 send 操作 ， 那 么 问题 是 ，send 操作 返回 时 ， 应 用 程序 对 操作 
是 否 成 功 知 道 多 少 ? 

在 这 个 范围 的 异步 一 端 ， 当 send 操作 返回 时 ， 应 用 程序 绝对 不 知道 任何 事情 。 它 不 
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仅 不 知道 报 文 是 否 被 对 等 方 接 收 ， 甚 至 不 能 确切 知道 报 文 是 否 成 功 地 离开 本 地 机 器 。 在 这 
个 范围 的 同步 一 端 ，send 操作 通常 返回 一 个 应 答 报 文 。 也 就 是 说 ， 应 用 程序 不 仅 知 道 发 送 
的 报 文 被 对 等 方 接收 ， 而 且 知 道 对 等 方 返回 一 个 上 应答。 这样， 同步 协议 实现 了 请 求 / 应 答 
的 抽象 ， 而 如 果 发 送 方 想 要 传输 很 多 报 文 而 不 必 等 待 响应 ， 则 使 用 异步 协议 。 应 用 这 个 定 
SL. RPC 协议 显然 是 一 个 同步 协议 。 

在 这 两 个 极端 间 存 在 一 些 值得 注意 的 问题 ， 尽 管 在 本 章 我 们 没有 讨论 它们 。 例 如 ， 
传输 协议 可 以 实现 send 后 阻塞 〈 不 返回 ) ， 直 到 报 文成 功 地 被 远程 机 器 接收 ， 但 在 发 送 
方 的 对 等 方 实际 处 理 完毕 并 响应 之 前 返回 。 有 时 这 称 为 可 靠 数 据 报 协 议 (reliable data- 


gram protocol) 。 


5.3.2 RPC 实现 (SunRPC, DCE) 

现在 讨论 RPC 协议 实现 的 例子 ， 这 将 突出 协议 设计 者 的 不 同 设计 决定 。 第 一 个 例子 
是 SunRPC， 这 是 一 个 被 广泛 使 用 的 RPC 协议 ， 也 称 为 开放 网 络 计算 RPC (Open Net- 
work Computing RPC，ONCRPC)。 第 二 个 例子 是 DCE-RPC， 它 是 分 布 式 计 算 环 境 
(Distributed Computing Environment. DCE) 的 一 部 分 。DCE 是 构造 由 开放 软件 基金 会 
(Open Software Foundation, OSF) 定义 的 分 布 式 系统 的 一 套 标 准 和 软件 ，OSF 是 由 一 些 
计算 机 公司 组 成 的 联盟 、 最 初 包括 IBM, DEC 和 HP 公司 ， 现 在 OSF 更 名 为 开放 组 
(The Open Group)。 这 两 个 例子 在 RPC 解决 方案 中 非常 具有 代表 性 。 

1. SunRPC 

SunRPC 已 经 成 为 一 个 事实 上 的 标准 ， 这 得 益 于 它 与 Sun 工作 站 一 起 被 广泛 应 用 及 其 
在 流行 的 Sun 网 络 文件 系统 (Network File System, NFS) 中 所 起 的 中 心 作 用 。IETF 采 
纳 了 SunRPC， 将 其 作为 一 个 标准 的 因特网 协议 ， 命 名 在 ONC RPC 之 下 。 

SunRPC 在 多 个 不 同 的 传输 层 协议 之 上 实现 ， 图 5-17 描述 了 在 
UDP 之 上 实现 SunRPC 的 协议 图 。 正 如 本 章 前 面 所 提 到 的 ， 严 格 的 | | 
层次 结构 主义 者 可 能 会 反对 在 传输 层 协议 之 上 运行 传输 层 协议 的 想 
法 ， 或 者 会 因为 RPC 出 现在 传输 层 之 上 而 争论 RPC 不 是 传输 层 协 vr | 
议 。 然 而 ， 正 如 下 面 将 要 讨论 的 ,将 RPC 运行 在 现 有 的 传输 层 之 上 
的 设计 决定 有 很 多 考虑 因素 。 iP 

SunRPC 使 用 两 层 标识 符 来 识别 远程 过 程 : 一 个 32 位 的 程序 号 

ETH 


SunRPC 











和 一 个 32 位 的 过 程 号 GEA 32 位 的 版 本 号 ， 在 下 面 的 讨论 中 我 们 
将 其 名 略 )。 例 如 ，NFS 服务 器 已 经 被 赋予 程序 号 x00100003， 在 
这 个 程序 中 ，getattr 是 过 程 1，setattr 是 过 程 2，read 是 过 程 6， 
write 是 过 程 8， 等 等 。 程 序号 和 过 程 号 被 放置 在 SunRPC 请 求 报 文 
的 首部 来 传输 ， 其 首部 字段 如 图 5- 18 所 示 。 对 于 调用 特定 程序 的 特定 过 程 而 言 ， 支 持 多 
个 程序 号 的 服务 器 是 尽责 的 。SunRPC 请 求实 际 上 代表 了 一 种 请 求 ， 该 请 求 是 调用 特定 机 
器 上 特定 程序 和 过 程 的 请 求 ， 相 同 的 程序 号 可 以 用 在 相同 网 络 中 的 不 同 机 器 上 。 这 样 ， 服 
务 器 的 地 址 〈( 如 IP 地址) 就 成 了 RPC 地 址 中 的 第 三 层 地址 。 

不 同 程序 号 可 能 属于 同一 台 机 器 上 的 不 同 服务 器 ， 这 些 不 同 的 服务 器 具有 不 同 的 
传输 层 标识 〈 例 如 UDP 端口 ) ， 其 中 大 部 分 都 是 被 动态 指派 的 非 知 名 端口 ， 这 些 标识 


图 5-17 在 UDP 之 上 的 
SunRPC 协议 图 
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fl 5-18 SunRPC 首部 格式 


称 为 传输 层 选 择 器 (transport selector) 。 一 个 想 要 与 特定 程序 交互 的 SunRPC 客户 端 
如 何 决 定 应 该 使 用 哪 一 个 传输 层 选择 器 到 达 相 应 的 服务 器 呢 ? 解决 办 法 是 给 远程 机 器 
上 的 一 个 程序 指派 知名 地 址 ， 让 该 程序 告诉 客户 端 哪 个 传输 层 选 择 器 能 够 到 达 该 机 器 
上 的 其 他 程序 。 该 SunRPC 程序 的 最 初版 本 称 为 端口 映射 (Port Mapper)， 它 仅 支持 
下 层 协 议 为 UDP 或 TCP 的 情况 。 它 的 程序 号 是 x00100000， 知 名 端口 号 是 111.。 
RPCBIND 由 端口 映射 程序 演化 而 来 ， 它 支持 任意 的 下 层 传输 层 协 议 。 当 SunRPC 服 
务 器 启动 时 ， 它 调用 位 于 服务 器 宿主 机 上 的 RPCBIND 注册 过 程 来 注册 其 支持 的 传输 
层 选 择 器 和 程序 号 ， 之 后 远程 客户 端 就 能 调用 RPCBIND 过 程 查询 对 应 于 特定 程序 号 
的 传输 层 选 择 器 。 

为 了 便于 理解 ,考虑 在 UDP 上 使 用 端口 映射 的 例子 ,为 了 给 NFS 的 read 过 程 发 送 请 
求 报 文 ， 客 户 端 首先 要 给 UDP 端口 111 上 的 端口 映射 程序 发 送 一 个 请 求 报 文 ， 请 求 调用 
过 程 3 以 把 程序 号 x00100003 映射 为 当前 NFS 程序 所 在 的 UDP 端口 。 客 户 端 接着 向 该 
UDP 端口 发 送 程序 号 为 x00100003 过 程 号 为 6 的 SunRPC 请 求 报 文 ， 在 该 端口 监听 的 
SunRPC 模块 调用 NFS 的 read 过 程 。 客 户 端 也 保存 程序 号 到 端口 号 的 映射 ， 所 以 不 必 在 
每 次 想 与 NFS 对 话 的 时 候 都 要 返回 到 端口 映射 程序 。 

为 了 将 应 答 报 文 与 相应 的 请 求 报 文 相 匹 配 ， 以 便 RPC 能 返回 到 正确 的 调用 者 ， 请 求 
报 文 和 应 答 报 文 的 首部 都 包含 有 XID (事务 ID) 字段 ， 如 图 5- 18 所 示 。XID 是 唯一 的 事 
务 标 识 符 ， 仅 用 于 一 次 请 求 和 相应 的 应 答 中 。 在 服务 器 对 给 定 的 请 求 进 行 了 成 功 的 应 答 
后 ， 它 不 会 记得 该 XID。 因 此 ，SunRPC 不 能 保证 最 多 一 次 语义 。 

SunRPC 语义 的 细节 依赖 于 下 层 的 传输 层 协议 ， 它 没有 实现 自己 的 可 和 于 性 ， 因 此 仅 当 
下 层 传输 层 协议 可 靠 时 它 才 是 可 靠 的 〈 当 然 ， 任 何 运 行 在 SunRPC 之 上 的 应 用 程序 也 可 以 
选择 在 SunRPC 之 上 实现 其 自身 的 可 靠 机 制 )。 发 送 比 网 络 MTU 大 的 请 求 和 应 答 报 文 的 
能 力也 依赖 于 下 层 的 传输 层 。 换 名 话说， 在 可 靠 性 和 报 文 大 小 方面 ，SunRPC 相对 于 下 层 
传输 层 来 说 并 没有 做 任何 改进 ， 因 此 SunRPC 能 够 运行 在 许多 不 同 的 传输 层 协 议 之 上 ， 具 
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有 相当 大 的 灵活 性 没有 给 RPC 协议 的 设计 增加 任何 复杂 性 。 

回 到 图 5-18 所 示 的 SunRPC 的 首部 格式 ， 请 求 报 文 包含 变 长 的 Credentials (证 书 ) 
和 Verifier 〈 校 验 ) 字段 ， 它 们 都 被 客户 端 用 来 向 服务 器 认证 自己 ， 也 就 是 说 ， 给 出 客户 
端 有 权 访 问 服务 器 的 证 据 。 客 户 端 如 何 向 服务 器 认证 自己 是 一 个 普遍 的 问题 ， 它 必须 由 任 
何 希望 提供 合理 安全 级 别 的 协议 来 解决 。 关 于 该 问题 的 更 详细 的 讨论 见 下 一 章 。 

2. DCE-RPC 

DCE-RPC 是 DCE 系统 核心 部 分 的 RPC 协议 ， 也 是 微软 DCOM 和 ActiveX 中 RPC 机 
制 的 基础 。 它 可 以 和 第 7 章 描 述 的 网 络 数 据 表 示 (Network Data Representation, NDR) 
桩 编译 器 一 起 使 用 ,但 它 也 可 以 作为 公用 对 象 请 求 代理 体系 结构 (Common Object Re- 
quest Broker Architecture. CORBA) 的 基础 RPC 协议 ，CORBA 是 一 个 构建 分 布 式 、 面 
向 对 象 系统 的 行业 标准 。 

像 SunRPC 一 样 ，DCE-RPC 被 设计 为 运行 在 包括 UDP 和 TCP 在 内 的 多 个 传输 层 协 
议 上 。 与 SunRPC 类 似 ， 它 定义 了 一 个 两 层 编 址 方案 : 传输 层 协议 多 路 分 解 到 正确 的 服务 
ft, DCE—RPC 分 发 到 由 该 服务 器 输入 的 特定 过 程 ， 客 户 端 查阅 “端点 映射 服务 ”( 类 似 
于 SunRPC 的 端口 映射 ) 以 获得 如 何 到 达 特 定 服务 器 的 途径 。 然 而 ， 与 SunRPC 不 同 的 
是 ，DCE-RPC 实现 最 多 一 次 调用 语义 (事实 上 ，DCE-RPC 支持 多 个 调用 语义 ， 包 括 类 似 
于 SunRPC 的 宕 等 语义 ， 但 最 多 一 次 语义 是 其 默认 行为 )。 在 下 面 的 段落 中 将 突出 两 种 方 
法 的 区 别 之 处 。 客户 端 服务 器 

图 5-19 给 出 了 典型 报 文 交换 的 时 间 线 ， 其 中 每 个 报 文 | | 
由 它 的 DCE-RPC 类 型 标明 。 客 户 端 发 送 一 个 Request 报 文 ， 
服务 器 最 终 用 一 个 Response 报 文 来 应 答 ， 然 后 客户 端 确认 
(Ack) 这 个 响应 。 然 而 ， 在 DCE-RPC 中 服务 器 并 不 确认 请 
求 报 文 ， 而 是 由 客户 端 定 期 向 服务 器 发 送 一 个 Ping 报 文 ， 
服务 器 用 一 个 Working 报 文 响应 表示 远程 过 程 仍 在 处 理 中 。 
如 果 服 务 器 的 应 答 很 快 被 接收 ， 则 不 需要 发 送 Ping 报 文 。 
尽管 图 中 没有 显示 ,但 DCE-RPC 也 支持 其 他 报 文 类 型 。 例 
如 ， 客 户 端 能 够 向 服务 器 发 送 一 个 Quit 报 文 ， 要 求 服 务 器 
终止 一 个 仍 在 处 理 的 早期 调用 ， 服 务 器 响应 一 个 Quack 
(退出 确认 ) 报 文 。 服 务 器 也 可 以 用 一 个 Reject (表示 一 个 | 
调用 已 被 拒绝 ) 报 文 响应 Request 报 文 ， 并 且 能 够 用 一 个 | 
Nocall RX (表示 服务 器 未 曾 接 收 到 调用 方 的 请 求 ) 响 应 | 
Ping 报 文 。 | 

DCE-RPC 中 的 每 个 请 求 /应 答 事 务 都 发 生 在 活跃 期 (ac- | 
tivity)， 活 跃 期 是 一 对 参与 方 之 间 的 逻辑 请 求 /应 等 信 道 。 在 | 
任何 时 刻 ， 在 给 定 信道 中 只 有 一 个 报 文 事务 是 活跃 的 。 就 像 ”图 5 19 典型 的 DCE-RPC 
在 2.5.3 节 中 所 描述 的 并 发 逻辑 信道 方法 一 样 ， 如 果 应 用 程 报 文 交换 
序 同 时 想 有 多 个 请 求 /应 答 事务 ， 那 么 就 必须 打开 多 个 信道 。 报 文 所 属 的 活 牙 期 通过 报 文 
的 ActivityId 字段 来 识别 ，SequenceNum 字段 用 来 区 分 同一 活 牙 期 中 的 不 同调 用 ， 它 与 
SunRPC 中 的 XID (事务 ID) 字段 具有 相同 的 作用 。 与 SunRPC 不 同 ，DCE-RPC 跟踪 特 
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答 进 行 区 分 ，DCE-RPC 使 用 ServerBoot FER RFF BL at (Ma oy ID. 

DCE-RPC 中 另外 一 个 不 同 于 SunRPC 的 设计 选择 是 在 RPC 协议 中 支持 分 段 和 重组 
正如 上 面 所 提 到 的 ， 即 使 下 层 协 议 (例如 IP， 提 供 了 分 段 /重组 功能 、 当 分 段 丢 失 时 ， 作 
为 RPC 的 一 部 分 来 实现 的 该 算法 能 够 进行 快速 恢复 ,减少 带宽 消耗 。FragmentNum 字段 
唯一 地 识 et ee to A DCE-RPC 分 段 被 指派 了 一 个 唯一 
的 分 段 号 (0、1、2、3 等 )。 客 户 端 和 上 月 服务 器 都 实现 了 一 种 选择 性 的 确认 机 制 ， 其 执行 过 
FEAF. akirite A EHER FR SC AY) fA ERRA PL il. R te A 
客户 端 发 送 一 个 分 段 响应 时 ,采用 同样 的 机 制 。) 

首先 ， 构 成 请 求 报 文 的 每 个 分 段 都 包含 一 个 唯一 的 FragmentNum 和 一 个 指示 该 分 组 
是 一 个 调用 的 分 段 Crag) 或 是 一 个 调用 的 最 后 分 段 (last_frag) 的 标志 ， 容 纳 一 个 单独 
分 组 的 请 求 报 文 携带 一 个 no_frag 标志 。 当 服务 器 接收 到 具有 last_frag 标志 的 分 组 而 且 分 
组 的 分 段 号 没有 间断 时 ， 它 就 知道 已 接收 了 一 个 完整 的 请 求 报 文 。 其 次 ， 为 了 响应 每 个 到 
达 的 分 段 ， 服 务 器 发 送 一 个 Fack (分 段 确认 ) 报 文 给 客户 端 。 该 确认 标明 服务 器 已 经 成 
功 收 到 的 最 大 分 段 号 。 换 名 话说， 确认 是 累积 确认 ， 很 像 TCP 中 的 确认 。 然 而 ， 服 务 
器 同时 也 选择 地 确认 它 错 序 接收 的 较 大 分 段 号 。 它 使 用 位 向 量 来 实现 这 一 功能 ,位 向 量 
标识 相对 于 按 序 接收 到 的 最 大 号 分 段 的 那些 乱 序 分 段 。 最 后 ， 客 户 端 用 重 传 丢失 的 分 段 
来 响应 。 

图 5-20 解释 了 整个 工作 过 程 。 假设 服务 器 已 成 功 接收 到 直到 序号 为 20 的 各 个 分 段 ， 
以 及 序号 为 23、25 和 26 的 分 段 。 服 务 器 用 一 个 Fack 响应 ，Fack 标识 分 段 20 是 最 大 有 序 
分 段 ， 并 加 上 一 个 第 3 (23=204+3) 位 、 第 5 (25=204+5) 位 和 第 6 (26=20+6) 位 为 
1 的 位 向 量 (SelAck)。 为 了 支持 一 个 (几乎 ) 任意 长 的 比特 向 量 ， 向 量 的 长 度 〈 以 32 位 
字 度 量 ) 在 SelAckLen 字段 中 给 出 。 


| 
24 Fea! 
E | | 
525 Nig ik | Type=Fack 
| FragmentN um=20 
| : 6+20 


| Fack WindowSize=10 5+20 
ay SEE sajë” : |; 3+20 
| | SelAckLen=1 
22| | SelAck[1]=0 x 34—f 110100 


图 5-20 带 有 选择 性 确认 的 分 段 





如 果 DCE-RPC 支持 很 大 的 报 文 一 一 FragmentNum 字段 长 度 为 16 位 ， 这 表示 它 能 够 
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支持 64K 个 分 段 一 一 那么 尽 可 能 快 地 处 理 掉 组 成 一 个 报 文 的 所 有 分 段 对 该 协议 来 说 是 不 适 
合 的 ， 因 为 这 样 做 可 能 超出 接收 方 的 限度 。 相 反 ，DCE-RPC 实现 了 一 个 类 似 于 TCP 的 流 
量 控制 算法 。 尤 其 是 ,每 个 Fack 报 文 不 仅仅 确认 接收 到 的 分 段 ， 同 时 也 通知 发 送 方 现在 
可 以 发 送 多 少 个 分 段 。 这 正 是 图 5-20 中 的 WindowSize 字段 的 目的 ， 它 与 TCP 的 Adver- 
tisedWindow 字段 的 目的 类 似 ， 但 它 计 数 的 是 分 段 而 不 是 字 节 。DCE-RPC 也 实现 了 一 个 
类 似 于 TCP 的 拥塞 控制 机 制 ， 我 们 将 在 第 6 章 中 讨论 。 鉴 于 拥塞 控制 的 复杂 性 ， 一些 
RPC 协议 通过 避免 分 段 来 避免 拥塞 。 

总 之 ， 在 设计 一 个 RPC 协议 时 ， 设 计 者 有 比较 大 的 选择 范围 。SunRPC 能 够 实现 最 
低 限 度 的 功能 ， 对 下 层 的 传输 层 增 加 了 相关 功能 ， 能够 定位 正确 的 过 程 并 识别 报 文 。 
DEC-RPC 增加 了 更 多 的 功能 ， 在 更 复杂 的 环境 下 改善 了 性 能 。 


5.4 实时 应 用 程序 传输 (RTP) 

在 分 组 交换 的 早期 阶段 ， 大 部 分 应 用 程序 涉及 的 都 是 数据 的 传输 : 访问 远程 计算 资 
源 、 传 输 文件 、 发 送 电子 邮件 等 。 然 而 ， 早 在 1981 年 ， 在 分 组 网 络 上 就 已 经 开始 了 传输 
实时 流量 的 实验 ， 例 如 传输 数字 化 音频 。 当 应 用 程序 对 及 时 传输 信息 有 强烈 需求 时 ， 该 应 
用 程序 就 被 称 为 是 实时 的 。 因 特 网 电话 或 IP 电话 (VoIP) 是 实时 应 用 程序 的 典型 例子 ， 
因为 在 一 次 通话 过 程 中 延迟 1s 以 上 才 得 到 对 方 的 响应 是 不 能 容 妨 的。 我 们 将 会 看 到 ， 实 
时 应 用 程序 对 传输 层 协 议 有 特殊 要 求 ， 这 些 要 求 是 本 





章 中 已 经 讨论 过 的 协议 所 无 法 满足 的 。 Christopher F Teng (Panel 

多 媒体 应 用 (涉及 视频 、 音 频 和 数据 ) MUAA “Sin bane l 
两 类 : 交互 式 (interactive) 应 用 和 流 式 (streaming) E - = a aropa ie: 
应 用 。 交 互 式 应 用 程序 早期 流行 一 时 的 例子 是 vat, O Gil Tevis 


这 是 一 个 音频 会 议 工 具 ， 通 常用 于 支持 IP 多 播 的 网 络 fay Dombrawsl 
上 。 图 5-21 显示 了 一 个 典型 vat 会 议 的 控制 面板 。 因 en NORAD. CUL DAY 

特 网 电话 也 是 一 个 交互 式 的 应 用 ， 在 本 书写 作 时 它 可 

能 是 最 广泛 使 用 的 交互 式 应 用 。 男 一 个 交互 式 应 用 程 

序 的 例子 是 基于 互联 网 的 多 媒体 会 议 ， 参 见 第 1 章 的 dl 
图 1-1。 现 代 的 即时 消息 应 用 程序 也 使 用 实时 音频 和 a Taa 
视频 。 这些 都 是 对 实时 需求 最 迫切 的 应 用 程序 。 

流 式 应 用 程序 主要 是 从 服务 器 向 客户 端 传输 音 
频 或 视频 流 ， 其 代表 是 像 Real Audio® 这样 的 商业 产品 。 以 YouTube 为 代表 的 视频 流 式 
应 用 程序 已 经 成 为 流量 互联 网 上 的 主要 形式 。 流 式 应 用 由 于 缺乏 人 与 人 的 交互 ， 所 以 对 
下 层 协议 的 实时 需求 并 不 是 很 迫切 。 然 而 ， 假 如 你 希望 按 下 播放 键 后 就 能 立刻 观看 视频 
但 由 于 分 组 延迟 而 导致 缓冲 或 视觉 延迟 ， 这 时 实时 就 显得 很 重要 。 员 然 这 些 应 用 程序 对 
实时 性 的 要 求 并 不 严格 ,但 它们 与 交互 式 应 用 程序 一 样 ， 需 要 在 通用 协议 之 上 考虑 类 似 
的 问题 。 

用 于 实时 应 用 和 多 媒体 应 用 的 传输 层 协议 的 设计 者 们 在 定义 满足 不 同 应 用 的 需求 方面 
面临 着 非常 现实 的 挑战 ， 他 们 必须 要 注意 不 同 应 用 之 间 的 交互 性 ， 例 如 ， 音 频 和 视频 流 的 
同步 。 我 们 将 会 看 到 这 些 因素 是 如 何 影响 实时 传输 协议 (Real-time Transport Protocol, 
RTP) 的 设计 的 ，RTP 也 是 当今 的 主流 传输 协议 。 
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-21 vat 音频 会 议 软 件 的 用 户 界面 
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RTP 大 部 分 来 源 于 早期 vat 应 用 中 的 协议 功能 ，vat 设计 之 初 运行 在 UDP 上 ,设计 者 
发 现 处 理 实时 音频 对 话 的 一 此 技术 特性 适用 于 其 他 许多 应 用 程序 ， 寺 是 他 们 定义 了 包含 这 
些 特性 的 协议 ， 后 来 演变 为 RTP。RTP 能 运行 在 许多 底层 协议 


之 上 ， 但 通常 都 运行 在 UDP 之 上 ， 这 样 其 协议 栈 就 如 图 5- 22 一 一 一 ——— | 
所 示 。 注 意 到 这 里 是 在 传输 层 协议 之 上 运行 传输 层 协议 , 这 并 | UpP | 
没有 违反 规则 S ， 事 实 上 可 以 有 多 种 理解 ， 因 为 UDP 提供 了 这 ， = 一 一 | 





样 一 个 最 低 限 度 的 功能 层 ， 基 于 端口 号 的 基本 的 多 路 分 解 正 是 - - 
RTP 所 需要 的 。 优 于 在 RTP 中 重新 创建 端口 号 ，RTP 利用 了 图 5-22 使 用 RTP 的 多 
UDP 的 多 路 分 解 功能 。 媒体 应 用 的 协议 栈 


5.4.1 需求 


通用 多 媒体 协议 的 最 基本 需求 是 允许 类 似 的 应 用 程序 之 间 交 互 操 作 ， 例 如 ， 人 允许 两 个 
独立 实现 的 音频 会 议 应 用 程序 之 间 相 互 交 谈 。 这 就 要 求 应 用 程序 使 用 相同 的 音频 编码 和 压 
缩 方 法 ， 和 否则 ， 接 收 方 将 无 法 理解 发 送 方 发 送 的 数据 。 因 为 有 许多 不 同 的 音频 编码 方法 、 
每 种 方法 在 质量 、 带 宽 需 求 、 计 算 代 价 等 方面 都 有 自己 的 协定 ， 因 此 只 使 用 一 种 方法 并 不 
是 一 个 好 主意 。 相 反 ， 我 们 的 协议 应 该 提供 一 种 方法 ， 使 得 发 送 方 能 够 告诉 接收 方 它 想 要 
使 用 的 编码 方法 ， 双 方 可 能 会 进行 协商 ， 以 便 找到 双方 都 可 接受 的 方法 。 

与 音频 一 样 ， 目 前 也 有 许多 不 同 的 视频 编码 方法 ， 因 此 ，RTP 的 首要 功能 是 提供 选 
择 编码 方法 的 能 力 。 注 意 这 也 用 于 识别 应 用 的 类 型 (例如 ， 音 频 或 视频 )， 一 旦 知道 了 使 
用 的 编码 算法 ， 也 就 知道 了 被 编码 的 数据 的 类 型 。 

RTP 的 另 一 个 重要 需求 是 使 得 数据 流 接收 方 能 够 判断 已 接收 数据 中 的 时 间 关 系 ， 在 
6. 5 节 我 们 将 介绍 ， 实 时 应 用 程序 需要 将 接收 到 的 数据 放 入 播放 缓冲 区 (playback buff- 
er)， 以 便 消 除 在 网 络 传输 过 程 中 可 能 被 引入 的 数据 流 中 的 拌 动 。 因 此 ， 数据 需要 有 了 时间 
E (也 称 时 标 )， 以 便 接收 方 能 在 合适 的 时 间 进 行 播放 。 

与 单个 媒体 流 相关 的 时 间 是 多 媒体 会 议 的 同步 事件 ， 最 明显 的 例子 是 同步 来 自 同一 发 
送 方 的 音频 和 视频 流 。 正 如 下 面 将 会 看 到 的 ， 对 单个 流 来 说 ， 这 是 比 播放 时 间 更 复杂 的 
问题 。 

需要 提供 的 另外 一 个 重要 的 功能 是 分 组 丢失 指示 。 注 意 具 有 潜在 限制 的 应 用 程序 通常 
不 能 使 用 像 TCP 这 样 的 可 靠 传输 协议 ， 因 为 对 丢失 数据 的 重 传 可 能 会 使 分 组 到 达 得 太 晚 ， 
从 而 无 法 使 用 。 因 此 ， 应 用 程序 必须 能 够 处 理 丢 失 的 分 组 ， 人 处 理 的 第 一 步 就 是 通知 分 组 已 
经 丢失 。 例 如 ， 当 分 组 丢失 时 ,使 用 MPEG 编码 的 视频 应 用 程序 可 能 需要 采取 不 同 的 行 
动 ， 这 依赖 于 分 组 是 来 自 I 帧 、B 帧 或 P 帧 。 

分 组 丢失 也 暗示 网 络 发 生 了 拥塞 。 多 媒体 应 序 通常 不 运行 在 TCP 上 ， 因 此 无 法 
tt ee 用 程序 能 够 对 拥塞 进行 响应 ， 
例如 ， 通 过 改变 编码 算法 的 参数 来 减少 带宽 消耗 。 显 然 ， 为 了 完成 该 工作 ， 接 收 方 需要 通 
知 发 送 方 丢失 事件 的 出 现 ， 以 便 发 送 方 能 够 调整 其 编码 参数 。 

多 媒体 应 用 程序 的 另外 一 个 通用 功能 是 帧 边界 的 指示 ， nig e 用 的 ， 例 
如 ， 通 知 视频 应 用 程序 一 个 特定 的 分 组 集 对 应 某 一 帧 可 能 是 有 帮助 的 。 在 一 个 音频 应 用 程 


O 但 这 却 使 人 们 对 RTP 是 否 为 真正 的 传输 层 协议 产生 困惑 。 
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序 中 标记 “交谈 ”的 开始 可 能 也 是 有 帮助 的 ， 这 里 所 说 的 交谈 是 指 在 沉默 之 后 发 出 的 声音 
或 单词 集合 。 接 收 方 据 此 就 能 识别 在 交谈 之 间 的 沉默 ， 并 使 用 这 段 时 间 来 移动 播放 点 。 对 
于 用 户 来 说 ， 交 谈 时 声音 之 间 的 空 际 发 生 微 小 的 减少 或 延长 是 不 易 察觉 的 ， 然 而 声音 的 减 
少 或 延长 不 但 是 易于 察觉 的 ， 而 且 是 很 令 人 讨厌 的 。 

想 放 人 协议 中 的 最 后 的 功能 是 识别 发 送 方 的 方法 ， 这 比 IP 地 址 更 为 友好 。 如 图 5-21 
所 示 ,音频 和 视频 会 议 应 用 能 在 控制 面板 上 显示 字符 串 , 例如 Joe User (user @ 
domain. com). 这样 应 用 协议 应 该 支持 这 样 的 字符 串 和 数据 流 的 关联 。 

除了 协议 所 要 求 的 功能 外 ， 需 要 注意 一 个 额外 的 需求 ， 即 它 应 该 尽 可 能 有 效 地 利用 种 
宽 。 换 名 话说， 我 们 不 希望 长 首部 格式 中 许多 额外 的 比特 随 着 每 个 分 组 被 发 送 ， 因 为 音频 
分 组 是 最 常见 的 多 媒体 数据 类 型 ， 它 应 该 尽 可 能 小 ， 以 便 减少 构造 分 组 的 时 间 。 长 的 音频 
分 组 意味 着 长 的 响应 时 间 ， 对 交谈 质量 有 负面 影响 〈 在 选择 ATM 信 元 长 度 时 这 是 一 个 考 
虑 因素 ) 。 由 于 数据 分 组 本 身 比 较 小 ， 较 大 的 首部 意味 着 相对 多 的 连接 带宽 被 用 于 首部 ， 
这 就 减少 了 实际 数据 所 能 利用 的 带宽 。 我 们 将 会 看 到 设计 RTP 的 好 几 个 方面 都 受到 了 保 
持 短 首 部 的 影响 。 

我 们 可 以 讨论 实时 传输 协议 中 描述 的 各 个 特性 存在 的 必要 性 ， 也 可 以 添加 更 多 的 特 
性 。 关键 在 于 为 应 用 程序 开发 者 描述 一 系列 有 用 的 抽象 并 为 他 们 构建 应 用 程序 块 ， 使 他 们 
的 工作 更 轻松 。 例 如 ， 通 过 在 RTP 中 增加 时 间 惟 机制 ， 每 个 实时 应 用 程序 开发 者 不 必 开 
发 自己 的 时 间 惟 机 制 ， 同 时 还 增加 了 两 个 实时 应 用 程序 互相 交互 的 机 会 。 


5.4.2 RTP 设计 


我 们 已 经 看 到 了 用 于 多 媒体 的 传输 层 协议 有 相当 多 的 需求 ， 下 面 来 看 看 满足 这 些 需求 
的 协议 的 细节 。RTP 协议 是 由 IETF 开发 的 ， 目 前 应 用 广泛 。RTP 标准 实际 上 定义 了 一 
对 协议 ， 即 RTP 和 实时 传输 控制 协议 (Real-time Transport Control Protocol, RTCP), 
前 者 用 于 多 媒体 数据 的 交换 ， 后 者 用 于 周期 性 地 发 送 与 特定 数据 流 相 关联 的 控制 信息 。 当 
在 UDP 上 运行 时 ，RTP 数据 流 与 相关 联 的 RTCP 控制 流 使 用 连续 的 传输 层 端口 。RTP 
数据 使 用 偶数 端口 号 ，RTCP 控制 信息 使 用 相连 的 下 一 个 (奇数 ) 端口 号 。 

因为 RTP 用 于 支持 各 种 各 样 的 应 用 ， 因 此 它 提供 了 一 种 灵活 的 机 制 ， 使 用 该 机 制 不 
需要 重复 修订 RTP 协议 本 身 就 可 以 开发 新 的 应 用 程序 。 对 于 每 种 应 用 类 型 (如 音频 )， 
RTP 定义 了 一 个 轮 廊 (profile) 和 一 个 或 多 个 格式 (format)。 轮 廓 提供 了 一 个 信息 范围 
来 确保 对 各 种 应 用 类 型 中 RTP 首部 字段 的 理解 ， 当 我 们 查看 首部 细节 时 会 更 明白 这 一 点 。 
格式 定义 了 跟随 在 RTP 首部 之 后 的 数据 如 何 被 解释 。 例 如 ，RTP 首部 之 后 可 能 只 有 一 个 
字 节 序列 ， 每 个 字 节 表示 一 个 单一 的 音频 样本 。 相 比较 而 言 ， 数 据 的 格式 可 能 更 为 复杂 ， 
例如 ， 一 个 用 MPEG 编码 的 视频 流 需 要 有 许多 结构 来 表示 各 种 不 同类 型 的 信息 。 

结论 RTP 的 设计 包含 了 一 个 称 为 应 用 层 框 架 (Application Level Framing, 

ALF) 的 体系 结构 原则 ， 该 原则 是 Clark 和 Tennenhouse 在 1990 年 提出 的 ， 这 

是 一 个 为 多 媒体 应 用 设计 协议 的 新 方法 。 他 们 认识 到 这 些 新 应 用 无 法 得 到 像 TCP 

这 样 的 现 有 协议 的 良好 支持 ， 而 且 可 能 也 无 法 得 到 任何 “固定 大 小 ”的 协议 的 良 

好 支持 。 该 原则 的 核心 是 应 用 程序 最 理解 它 自己 的 需要 。 例 如 ，MPEG 视频 应 用 

程序 知道 如 何 最 好 地 恢复 丢失 的 帧 ， 若 工 帧 或 者 也 帧 丢失 如 何 进行 不 同 的 处 理 。 

同样 的 应 用 程序 也 理解 如 何 将 传输 的 数据 进行 分 段 ， 例 如 ， 在 不 同 数据 报 中 最 好 
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发 送 来 自 不 同 帧 的 数据 ， 以 便 丢 失 的 分 组 仅仅 影响 一 个 帧 。 由 于 该 原因 人 TP 在 
相应 应 用 的 轮 廊 和 格式 中 保留 了 许多 协议 细节 。 


首部 格式 
图 5-23 显示 了 RTP 的 首部 格式 ， 前 12 个 字 节 总 是 存在 ， 然 而 仅 在 特定 环境 下 才 使 
用 贡献 源 标 识 符 。 首 部 之 后 是 扩展 首部 ， 下 面 将 有 相关 描述 。 之 后 是 RTP 有 效 载荷 ， 其 


格式 由 具体 应 用 来 决定 ， 它 包 含 着 可 能 被 多 种 不 同 应 用 所 使 用 的 字段 ， 对 于 不 同 的 应 用 来 
说 其 字段 不 同 ， 这 有 利于 RTP 仅仅 承载 特定 应 用 的 相关 载荷 。 
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图 5-23 RTP 首部 格式 


前 两 位 是 版 本 号 ， 本 书写 作 时 RTP 的 版 本 号 是 2. 协议 设计 者 认为 2 位 将 足以 包含 将 
来 所 有 RTP 版 本 号 ， 这 些 位 在 RTP 首部 是 额外 开销 ， 针 对 各 种 不 同 应 用 的 轮廓 使 用 使 得 
对 于 基本 RTP 协议 的 修订 不 会 太 多 。 在 任何 情况 下 ， 如 果 RTP 需要 有 超越 版 本 2 的 下 一 
个 版 本 ， 可 以 考虑 改变 首部 格式 ， 以 便 支 持 将 来 的 多 个 版 本 。 例如， 在 版 本 字段 具有 值 3 
的 新 的 RTP 首部 可 能 在 首部 包含 一 个 子 版 本 号 字段 。 

下 一 位 是 填充 (padding, P) 位 ， 当 由 于 某 种 原因 使 RTP 载荷 被 填充 时 需要 使 用 该 
字段 。 例 如 ， 由 于 加 密 算法 的 需要 ，RTP 数据 可 能 需要 填充 一 些 内容 . 在 这 种 情况 下 、， 
下 层 协议 (例如 ，UDP) 将 传输 整个 RTP 首部、 数据 以 及 填充 内 容 ， 填充 的 字 节 将 会 被 
忽略 ， 见 图 5-24。 注 意 这 种 填充 方法 使 得 RTP 首部 不 需要 长 度 字 段 (使 得 首部 尽 可 能 
短 )， 在 没有 填充 的 情况 下 ， 长 度 可 由 下 层 协 议 推 出 。 





承载 在 UDP 首 部 中 的 有 效 载荷 长 度 一 一 一 一 一 ”| 








图 5-24 RTP 分 组 的 填充 


扩展 (extension, X) 位 用 于 指示 扩展 首部 的 存在 ， 特定 的 应 用 会 定义 扩展 首部 ， 它 
跟随 在 基本 首部 之 后 。 扩 展 首部 很 少 使 用 ， 对 于 特定 的 应 用 来 说 ， see 对 特定 载荷 定 
义 扩展 首部 ， 以 说 明 特 定 载荷 的 格式 。 

X 位 之 后 是 一 个 4 位 的 字段 ， 用 来 说 明 包 含 在 首部 中 的 贡献 源 (contributing source) 
的 数量 。 关 于 贡献 源 将 会 在 下 文 讨论 。 

根据 上 文 我 们 注意 到 需要 有 对 各 种 各 样 帧 的 指示 ， 这 由 有 特殊 用 途 的 标记 位 来 提供 、 
例如 ， 在 语音 应 用 中 标记 交谈 的 开始 。 接 下 来 是 7 位 的 有 效 载 荷 类 型 字段 ， 它 指示 在 分 组 
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中 承载 的 是 什么 类 型 的 多 媒体 数据 。 该 字段 的 一 种 可 能 用 途 是 基于 网 络 资源 可 用 性 或 应 用 
质量 的 反馈 ， 使 应 用 从 一 种 编码 方法 切换 到 另 一 种 方法 。 标 记 位 的 确切 使 用 方式 和 有 效 载 
荷 类 型 由 应 用 的 配置 文件 来 决定 。 

有 效 载荷 类 型 通常 不 用 作 多 路 分 解 来 指示 不 同 应 tii (或 者 单一 应 用 中 的 不 同 
流 ， 例 如 ， 视频 会 议 的 音频 或 视频 流 ) 多 路 分 解密 码 ， 这 是 因为 多 路 分 解 功能 典型 地 由 下 
屋 来 提供 (例如 UDP. 正如 5.1 节 中 所 描述 的 )。 这 样 ， 使 用 RTP 的 两 个 媒体 流 将 使 用 
不 同 的 UDP 端口 号 。 

序号 用 于 使 RTP 流 的 接收 方 检测 丢失 或 失 序 的 分 组 ， 发 送 方 对 每 个 传输 的 分 组 递增 
序号 的 值 ， 当 检测 到 丢失 分 组 时 RTP 不 做 任何 事情 ， 这 一 点 与 TCP 不 同 ，TCP 纠正 丢失 
(通过 重 传 ) 并 将 其 理解 为 拥塞 指示 〈 从 而 可 能 减 小 窗口 大 小 )。 确 切 地 说 ， 当 分 组 丢失 
时 ， 由 应 用 来 决定 该 采取 什么 措施 ， 因 为 该 决定 可 能 是 高 度 依赖 应 用 的 。 例 如 ， 对 视频 应 
用 来 说 ， 最 好 的 决定 是 当 分 组 丢失 时 ， 播 放 正 确 接收 到 的 最 后 的 帧 。 一 些 应 用 也 可 能 会 修 
改 其 编码 算法 ， 以 减少 响应 丢失 的 带宽 需求 ， 但 这 不 是 RTP 的 功能 。 对 RTP Rik. RE 
应 该 被 减少 的 发 送 率 是 不 明智 的 ， 因 为 这 可 能 使 得 应 用 变 得 无 法 使 用 。 

时 间 惟 字段 的 功能 是 使 接收 方 在 合适 的 时 间 间 际 内 播放 样本 ， 并 使 不 同 的 媒体 流 同 
步 。 Saati gece ett 因此 RTP 本 身 并 没有 指定 衡量 时 间 的 单 
位 。 ， 时 间 惟 只 是 一 个 计数 上 器， 计数 的 时 间 间 隔 依赖 于 所 使 用 的 编码 方法 。 例 如 ， 音 

pao 125ms 作为 时 钟 单位 。 时 钟 粒 度 在 RTP 轮廓 或 应 用 的 载荷 格式 中 指定 。 

分 组 中 时 间 戳 的 值 是 表示 所 产生 分 组 中 第 一 个 样本 的 时 间 的 数字 ， 时 间 戳 不 反映 实际 
时 间 ， 只 反映 不 同时 间 戳 间 的 差别 。 例 如 ， 如 果 样 本 间隔 是 125ms， 分 组 n 中 的 第 一 个 样 
本 产生 10ms 后 分 组 2 十 1 中 的 第 一 个 样本 产生 了 ,那么 这 两 个 样本 间 的 样本 实例 数 是 

TimeBetweenPackets+ TimePerSample= (10X10 3) + (125X10~°) =80 

假设 时 钟 间隔 与 样本 间隔 是 相同 的 ,那么 分 组 ”十 1 中 的 时 间 截 比分 组 n 中 的 大 80。 
注意 ， 由 于 沉默 检测 这 样 的 压缩 技术 ， 小 于 80 个 的 样本 可 能 已 经 被 发 送 了 ， 然 而 时 间 截 
允许 接收 方 根据 正确 的 时 间 关 系 来 播放 样本 。 

同步 源 (SSRC) 是 一 个 32 位 的 数字 ， 它 唯一 地 标识 RTP 流 的 单个 源 。 在 一 
的 多 媒体 会 议 中 ， 每 个 发 送 方 随机 选择 一 个 SSRC， 并 在 两 个 不 同 的 源 选 择 了 相同 的 值 时 
解决 冲突 。 通 过 使 用 源 标识 符 ， 而 不 是 源 的 网 络 地 址 或 传输 地 址 ，RTP 能 够 确保 与 下 层 
协议 独立 。 它 也 使 得 具有 多 个 源 〈 例 如 ， 好 几 个 摄像 头 ) 的 单一 节点 能 够 对 源 进行 区 分 。 
当 单 一 节点 产生 了 不 同 的 媒体 流 时 (例如 ， 音 频 和 视频 )， 在 每 个 流 中 不 需要 使 用 相同 的 
SSRC， 因 为 在 RTCP (后 面 将 会 描述 ) 中 有 机 制 能 够 允许 媒体 同步 。 

仅 当 许多 RTP 流通 过 混 频 器 时 才 使 用 贡献 源 (CSRC)， 泥 频 器 通过 从 许多 源 接收 数 
据 并 作为 单一 流 发 送 来 减 小 会 议 的 带宽 需求 。 例 如 ， 来自 好 几 个 并 行 演讲 者 的 音频 流 能 够 
被 解码 并 重新 编码 为 一 个 单一 的 音频 流 。 在 这 种 情况 下 ， 混 频 器 将 其 自己 作为 同步 源 ， 并 
作为 贡献 源 一 一 演讲 者 的 SSRC 值 贡献 给 当前 分 组 。 


5.4.3 控制 协议 


RTCP 提供 了 与 多 媒体 应 用 数据 流 相 关联 的 控制 流 ， 该 控制 流 提供 了 三 个 主要 功能 : 
D 关于 应 用 和 网 络 性 能 的 反馈 ， 
2) 来 自 同一 发 送 方 的 不 同 媒 体 流 的 关联 与 同步 方法 。 
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3) 传输 发 送 方 身份 以 便 显示 在 用 户 界 面 上 的 方法 (例如 ， 显 示 在 图 5-21 中 的 vat 界 
H). 

第 一 个 功能 对 于 拥塞 的 侦 测 和 响应 来 说 是 有 用 的 ， 例 如 ， 一 些 自 适应 速率 的 应 用 可 能 
会 通过 性 能 数据 来 决定 使 用 更 好 的 压缩 方法 以 降低 拥塞 ， 或 者 当 拥塞 比较 小 时 发 送 高 质量 
的 流 。 回 馈 的 性 能 数据 在 诊断 网 络 故障 时 也 可 能 用 到 。 

你 可 能 会 认为 RTP 同步 源 (SSRC) ID 已 经 提供 了 第 二 个 功能 ， 但 事实 上 没有 。 正 
如 已 经 提 到 过 的 ， 在 同一 节点 上 的 多 个 摄像 头 有 不 同 的 SSRC 值 ， 并 且 来 自 同一 节点 的 音 
频 和 视频 流 并 没有 使 用 同一 SSRC 的 需求 。 因 为 SSRC 的 值 可 能 会 出 现 冲 突 ， 因 此 改变 一 
个 流 的 SSRC 值 是 必要 的 。 为 了 处 理 这 个 问题 ，RTCP 使 用 了 规范 名 (CNAME) 的 概念 ， 
它 被 指派 给 一 个 发 送 方 ， 然 后 与 使 用 RTCP 机 制 的 发 送 方 所 使 用 的 SSRC 值 相关 联 。 

关联 两 个 流 只 是 媒体 同步 问题 的 一 部 分 。 因 为 不 同 的 流 可 能 有 完全 不 同 的 时 钟 (具有 
不 同 的 时 钟 间隔 ， 甚 至 不 同 的 错误 量 )， 因 此 需要 有 一 种 方法 来 精确 地 同步 各 个 流 。RTCP 
通过 传递 关联 实际 时 间 的 定时 信息 和 RTP 分 组 所 携带 的 依赖 时 钟 速率 的 时 间 玲 来 解决 该 
问题 。 

RTCP 定义 了 许多 不 同 的 分 组 类 型 ， 包 括 : 

。 发 送 方 报告 ， 它 使 得 活动 的 发 送 方 能 够 产生 会 话 来 报告 传输 和 接收 的 统计 量 。 

。 接收 方 报告 ， 接 收 方 用 来 报告 接收 统计 量 。 

。 源 描述 ， 承 载 CNAME 和 其 他 发 送 方 描述 信息 。 

。 特定 应 用 的 控制 分 组 。 

这 些 不 同类 型 的 RTCP 分 组 通过 下 层 协议 来 发 送 ， 正 如 之 前 提 到 过 的 ， 典 型 的 是 使 用 
UDP. ZA RTCP 分 组 可 以 被 封装 在 一 个 下 层 协议 的 PDU 中 。 在 每 个 下 层 PDU 中 至 少 
要 有 两 个 RTCP 分 组 : 一 个 是 报告 分 组 ， 另 一 个 是 源 描述 分 组 . 也 可 能 会 包含 其 他 分 组 ， 
其 大 小 只 要 满足 下 层 协 议 的 限制 即 可 。 

在 进一步 查看 RTCP 分 组 的 内 容 之 前 ， 注 意 周期 性 发 送 控制 流量 的 多 播 组 的 每 个 成 员 
都 有 潜在 的 问题 。 除 非 采用 一 些 步骤 来 进行 限制 ， 和 否则 控制 流量 有 可 能 成 为 带宽 的 重要 消 
耗 者 。 例 如 ， 在 音频 会 议 中 ， 两 个 或 三 个 发 送 方 可 能 在 任何 情况 下 发 送 音 频数 据 ， 无 法 对 
其 进行 控制 ， 但 是 对 每 个 发 送 控制 流 没有 群体 限制 ， 在 有 成 千 上 万 参与 者 的 会 议 中 将 是 一 
个 严重 的 问题 。 为 了 处 理 这 个 问题 ，RTCP 有 一 套 机 制 ， 根 据 参 与 者 增加 的 数量 来 测量 报 
告 频率 。 这 些 规则 是 比较 复杂 的 ,但 基本 目标 是 : 将 RTCP 流量 的 总 量 限 制 为 RTP 数据 
流量 的 一 个 比较 小 的 比例 (典型 值 为 5%)。 为 了 实现 这 个 目标 ， 参 与 者 需要 知道 可 能 会 使 
用 多 少数 据 带宽 〈 例 如 ， 发 送 三 个 音频 流 的 数量 ) 以 及 参与 者 的 数量 。 他 们 通过 RTP 来 
知道 前 者 〈 通 过 本 节 末 的 会 话 管理 )， 通 过 其 他 参与 者 的 RTCP 报告 来 知道 后 者 。 因 为 
RTCP 报告 可 能 会 以 很 低 的 速率 发 送 ， 因 此 可 以 获得 接收 方 当 前 容量 的 可 能 数量 ， 但 这 就 
足够 了 。 而 且 ， 在 假设 多 数 参 与 者 喜欢 看 报告 (例如 ， 找 出 谁 正在 讲话 ) 的 基础 上 ， 推 荐 
给 活动 的 发 送 方 分 配 较 多 的 RTCP 带宽 。 

一 旦 参与 者 决定 了 它 能 够 消耗 多 少 RTCP 流量 带宽 ， 就 会 以 适当 的 比率 周期 性 地 发 送 
报告 。 发 送 方 报告 和 接收 方 报告 的 区 别 仅 在 于 前 者 包括 一 些 关 于 发 送 方 的 额外 信息 。 两 种 
类 型 的 报告 都 包含 最 近 的 报告 周期 内 从 所 有 源 接收 的 数据 的 相关 信息 。 

发 送 方 报告 中 的 额外 信息 包括 : 

。 包含 产生 报告 的 实际 时 间 的 时 间 鹤 。 
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。 相应 于 产生 报告 的 时 间 的 RTP Ot TD eR 

。 发 送 方 开始 传输 时 分 组 和 字 节 的 累计 计数 。 

注意 前 两 个 值 用 于 来 自 同 一 源 的 不 同 媒体 流 的 同步 ， 即 使 这 些 流 在 其 RTP 数据 流 中 
使 用 了 不 同 的 时 间 间 隔 ， 因 为 它 可 以 将 实际 时 间 转 换 为 RTP 时 间 戳 。 

发 送 方 和 接收 方 报告 都 包含 每 个 源 从 最 后 的 报告 中 获取 的 数据 块 ， 每 个 数据 块 包含 源 
的 如 下 统计 量 : 

» SSRC, 

。 自 最 后 报告 发 送 后 丢失 的 该 源 的 数据 分 组 片段 (通过 比较 接收 的 分 组 数量 与 期 待 

的 分 组 数量 来 计算 得 到 ， 最 后 的 值 可 由 RTP 序号 来 决定 )。 

。 自 听 到 的 第 一 个 时 间 后 从 该 源 丢 失 的 分 组 的 总 数量 。 

。 从 该 源 接收 到 的 最 大 序号 (扩展 到 32 位 来 避免 序列 号 的 回 绕 ) 。 

。 该 源 预 计 的 到 达 间 隔 空 间 (通过 比较 接收 到 的 分 组 空间 和 传输 中 的 分 组 空间 来 计 
算得 到 )。 
通过 该 源 的 RTCP 接收 到 的 最 后 的 确切 时 间 戳 。 

从 通过 该 源 的 RTCP 接收 到 的 最 后 的 发 送 方 报告 开始 的 延迟 。 

正如 你 可 能 想象 到 的 ， 信 息 的 接收 方 能 够 知道 关于 会 话 状 态 的 各 种 信息 。 特 别 是 它们 
能 知道 是 否 别 的 接收 方正 在 从 一 些 发 送 方 获得 更 好 的 质量 ， 这 可 能 指示 需要 进行 资源 预 
留 ， 或 者 网 络 中 存在 问题 。 此 外 ， 如 果 发 送 方 注意 到 许多 接收 方正 在 经 历 分 组 的 大 量 丢 
失 ， 它 可 能 会 降低 发 送 速 率 或 使 用 一 种 对 丢失 分 组 更 有 弹性 的 编码 方案 。 

要 考虑 的 RTCP 的 最 后 一 个 方面 是 源 描述 分 组 ， 该 分 组 至 少 应 包含 发 送 方 的 SSRC 和 
CNAME。 规 范 名 源 于 这 样 的 方法 ， 对 于 产生 需要 同步 的 媒体 流 的 所 有 应 用 程序 (例如 ， 
同一 用 户 独 立 产生 音频 和 视频 流 )， 即 使 它们 选择 了 不 同 的 SSRC 值 ， 它们 也 将 选择 同样 
的 CNAME。 这 使 得 接收 方 能 够 识别 出 媒体 流 来 自 同一 发 送 方 。CNAME 的 最 常见 格式 是 
user@ host， 这 里 host 是 发 送 机 器 的 完整 域名 。 这 样 , 运行 在 机 器 cicada. 
cs. princeton. edu 上 由 用 户 名 为 jdoe 的 用 户 安 装 的 应 用 程序 将 使 用 字符 串 jdoe @ 
cicada. cs. princeton. edu 作为 其 CNAME。 用 于 这 种 表示 法 中 的 大 量 且 可 变 长 度 的 字符 串 
对 于 SSRC 来 说 是 不 好 的 选择 ， 因 为 SSRC 随 着 每 个 数据 分 组 被 发 送 ， 并且 必须 实时 处 理 。 
允许 CNAME 与 周期 性 RTCP 报 文中 的 SSRC 值 关联 ， 使 得 SSRC 有 一 个 紧凑 且 有 效 的 格式 。 

在 源 描述 分 组 中 可 能 会 包含 其 他 内 容 ， 例 如 用 户 的 真实 名 字 和 电子 邮件 地 址 。 这 些 信 
息 用 在 用 户 界面 显示 和 联系 参与 者 中 ， 但 是 对 于 RTP 操作 来 说 ,它们 没有 CNAME 重要 。 

1% TCP —##, RTP 和 RTCP 是 相当 复杂 的 一 对 协议 。 这 种 复杂 性 很 大 一 部 分 来 自 使 
应 用 程序 设计 者 的 生活 更 轻松 的 愿望 。 因 为 应 用 程序 是 多 种 多 样 的 ， 所 以 设计 传输 协议 的 
挑战 是 让 这 个 协议 更 通用 以 满足 各 种 应 用 的 不 同 需求 ， 而 并 不 是 设计 出 无 法 实现 的 协议 。 
在 这 方面 RTP 协议 成 功 构造 了 互联 网 上 众多 实时 多 媒体 通信 的 基础 。 


5.5 小 结 


本 章 描 述 了 四 种 完全 不 同 的 端 到 端 协议 。 第 一 类 协议 是 一 个 简单 的 多 路 分 解 协议 ， 以 
UDP 为 代表 。 所 有 这 样 的 协议 所 做 的 事情 是 将 报 文 分 发 给 基于 端口 号 的 相应 的 应 用 程序 
进程 。 它 并 没有 以 任何 方式 增强 底层 网 络 的 尽力 而 为 传输 服务 模型 ， 或 者 换个 方式 说 ， 它 
为 应 用 程序 提供 了 一 个 不 可 靠 的 、 无 连接 的 数据 报 服务 。 





第 二 类 是 一 个 可 靠 的 字 节 流 协议 ， 这 类 协议 的 具体 例子 是 TCP。 这 样 的 协议 面临 的 问 
题 是 恢复 网 络 丢 失 的 报 文 ， 按照 发 送 的 顺序 递交 报 文 ， 以 及 允许 接收 方 对 发 送 方 进行 流量 
控制 。TCP 使 用 带 有 通知 窗口 的 基本 滑动 窗口 算法 来 实现 这 些 功能 。 对 这 个 协议 男 一 个 
要 注意 的 事项 是 其 精确 的 超时 / 重 传 机 制 的 重要 性 。 有 趣 的 是 ,虽然 TCP 是 单个 协议 ， 但 
它 至 少 采 用 了 五 种 不 同 的 算法 滑动 窗口 、Nagle、 三 次 握手 、Karn/Partridge 和 Ja 
cobson/Karels 一 一 每 种 算法 对 于 端 到 端 协议 都 是 有 价值 的 。 

第 三 类 传输 协议 是 请 求 / 应 答 协议 ， 它 是 RPC 的 基础 。 这 类 协议 必须 将 请 求 分 发 给 正 
确 的 远程 过 程 ， 并 将 应 答 与 相应 的 请 求 相 匹配 。 它 们 可 能 提供 可 靠 性 ， 如 最 多 一 次 语义 、 
也 可 能 通过 报 文 的 分 段 和 重组 来 支持 大 尺寸 的 报 文 。 

最 后 一 类 传输 协议 针对 的 是 涉及 多 媒体 数据 (例如 音频 和 视频 ) 并 且 对 实时 传输 有 直 
求 的 应 用 程序 类 ， 这样 的 传输 协议 需要 考虑 单个 媒体 流 的 时 间 信 息 以 及 多 媒体 流 的 同步 
它 也 要 给 上 层 ( 例 如， 应 用 层 ) 提供 关于 数据 丢失 的 信息 (因为 通常 没有 足够 的 时 间 来 重 
传 丢 失 的 分 组 )， 以 便 使 用 合适 的 针对 特定 应 用 的 恢复 方法 和 避免 拥塞 的 方法 。 已 经 被 开 
发 出 来 的 能 够 满足 这 些 需 要 的 协议 是 RTP， 它 包括 一 个 称 为 RTCP 的 控制 协议 。 


接 下 来 会 发 生 什么 : 传输 协议 多 样 性 

读 完 本 章 应 该 清楚 的 是 ， 设 计 传输 协议 是 一 件 复 杂 的 事情 。 正 如 我 们 看 到 的 ， 首 先 正 
确实 现 一 个 传输 协议 是 足够 困难 的 ， 但 变化 的 环境 使 这 一 问题 更 加 复杂 。 有 些 变化 并 不 是 
太 难 预料 (例如 ， 网 络 不 断 变 快 ), 但 有 时 一 类 新 应 用 的 出 现 将 改变 对 传输 层 服 务 的 要 求 . 
问题 在 于 找到 适应 这 些 变 化 的 方法 。 有 时 现 有 协议 可 以 进行 调整 ， 如 为 了 处 理 新 问题 TCP 
选项 的 不 断 演化 。 有 了 时 又 可 以 创建 新 的 传输 协议 ， 如 RTP 和 SCTP。 重 用 现 有 协议 还 是 创 
建新 协议 ， 这 是 一 个 开放 的 问题 。 

除了 对 现 有 协议 稍 作 修 改 ， 以 适应 不 断 变化 的 网 络 环境 或 新 应 用 需求 ， 有 时 我 们 也 在 
现 有 协议 下 调整 应 用 程序 来 适应 变化 。 例 如 ， 需 要 RPC 语义 的 应 用 程序 在 RPC 协议 下 工 
作 得 最 好 ， 而 对 应 用 程序 稍 作 修 改 也 能 在 TCP 协议 下 工作 ， 只 不 过 效率 有 一 些 损失 。 在 
网 页 应 用 程序 需要 某 些 RPC 选项 的 今天 ， 这 种 情况 并 不 少见 。 网 络 中 TCP 无 处 不 在 , È 
能 胜任 各 种 具有 挑战 性 的 环境 ， 如 穿 过 NAT 设备 和 防火 墙 。 因 此 ， 有 时 在 TCP 上 构建 并 


运行 仿 RPC 的 机 制 更 为 简单 ， 即 使 严格 来 说 它 不 是 最 有 效 的 方法 。 

同样 ， 似 乎 RTP 应 该 是 传输 视频 流 的 首选 协议 ， 它 也 仍然 被 广泛 使 用 着 ， 但 使 用 
TCP (和 HTTP ) 来 提供 流 媒体 视频 内 容 的 趋势 也 很 强烈 。 采 用 这 种 方式 来 传输 娱乐 视频 
(如 在 网 页 浏览 器 上 观看 的 电视 节目 和 电影 ) 的 做 法 渐渐 流行 。 说 该 方法 将 走向 终点 还 言 


之 尚 早 ， 但 不 难 想象 TCP 是 未 来 用 于 视频 传输 的 主要 传输 协议 。 
回顾 第 1 章 讨 论 的 互联 网 “沙漏 ”结构 ， 很 明显 ， 传 输 协议 的 多 样 性 正 符合 互联 网 设 
计 师 的 预期 。 但 是 ， 现 如 今 TCP 几乎 成 为 沙漏 中 “ 腰 ” 的 一 部 分 ， 因 为 TCP 提供 无 所 不 
在 的 服务 ， 而 大 多 数 应 用 程序 又 很 依赖 这 些 服务 。 
扩展 阅读 
TCP 无 疑 是 一 个 复杂 的 协议 ， 实际 上 在 本 章 还 有 一 些 细节 没有 曾 述 。 因 此 本 章 的 推 
荐 阅读 中 包括 TCP 的 原始 规范 。 推 荐 这 个 规范 的 目的 不 是 为 了 补充 缺少 的 细节 ， 而 是 向 
你 展示 一 个 真正 好 的 协议 规范 是 什么 样子 。 由 Birrell 和 Nelson 写 的 论文 是 RPC 的 开山 之 
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作 。Clark 和 Tennenhouse 的 论文 是 关于 协议 体系 结构 的 ， 介 绍 对 设计 RTP 产生 了 灵感 的 
应 用 层 框 架 (Application Layer Framing) 的 概念 ， 这 篇 论文 在 设计 随 应 用 需求 而 改变 的 
协议 方面 非常 有 见地 
e USC-ISI. Transmission Control Protocol. Request for Comments 793, September 1981. 
e Birrell, A. . and B. Nelson. Implementing remote procedure calls. ACM Transac- 
tions on Computer Systems 2 (1); 39-59, February 1984. 

。 Clark, D. , and D. Tennenhouse. Architectural considerations for a new generation 
of protocols. Proceedings of the SIGCOMM’'90 Symposium, pages 200-208, Sep- 
tember 1990. 

除了 协议 规范 ， 关 于 TCP 最 完整 的 描述 ,包括 它 在 Unix 中 的 实现 ,可 以 在 Stevens 
的 著作 [Ste94b] 和 [SW95] 中 找到 。 在 Comer Fil Stevens 的 TCP/IP 系列 从 书 的 第 3 卷 
中 ,描述 了 在 TCP 和 UDP 上 用 Posix 套 接 字 接口 [CS00]、Windows 套 接 字 接 口 
[CS97] 和 BSD 套 接 字 接口 [CS96] 怎 样 编写 客户 端 / 服 务 右 应 用 程序 。 在 帮助 概述 
LOY02 ] 中 描述 了 SCTP 作为 可 靠 传输 协议 与 TCP 在 设计 方面 的 不 同 ， 并 在 [Ste07] 中 
进行 了 详细 说 明 。 

多 篇 论文 非常 详细 地 评估 了 不 同 传输 协议 的 性 能 。 例 如 ，Clark 等 人 的 文章 
[CJRS89] 测量 了 TCP 层 的 处 理 开 销 ，Mosberger 等 人 的 文章 [MPBO96] 探讨 了 协议 处 
理 开 销 的 局 限 ，Thekkath 和 Levy 的 文章 [TL93] 以 及 Schroeder 和 Burrows 的 文章 
[SB89] 都 非常 详细 地 考察 了 RPC 的 性 能 。 

原 有 的 TCP 超时 计算 在 TCP 规范 中 有 描述 ( 见 上 面 )，Karn/Partridge 算法 在 
[KP91] 中 描述 ，Jacobson/Karels 算法 在 [Jac88] 中 描述 。 由 Jacobson 等 [JBB92] 定 
义 了 对 TCP 的 扩展 ， 而 O'Malley 和 Peterson [OP91] 论述 了 以 这 样 的 方式 扩展 TCP 不 
是 解决 问题 的 正确 方法 

有 多 种 分 布 式 操作 系统 已 经 定义 了 它们 自己 的 RPC 协议 。 著 名 的 例子 包括 由 Cheri- 
ton 和 Zwaenepoel [CZ85] 描述 的 V 系统 ， 由 Ousterhout 等 人 [OCD* 88] 描述 的 Sprite 
系统 ， 以 及 由 Mullender [Mul90] 描述 的 Amoeba 系统 。 

在 RFC 3550 [SCFJ03] 中 描述 了 RTP. 在 众多 的 其 他 RFC (例如 ，RFC 3551 
LSC03]) 中 描述 了 使 用 RTP 的 各 种 应 用 的 轮廓 。McCanne 和 Jacobson [MJ95] 描述 了 
vic， 这 是 使 用 RTP 的 一 种 应 用 。 

最 后 ， 下 列 时 常 更 新 的 参考 资料 提供 了 大 量 关于 传输 协议 和 其 他 协议 的 信息 : 

e http://www. iana. org/protocols/: 包括 所 有 选项 、 常 量 、 端 口号 等 各 种 已 定义 的 

互联 网 协议 的 信息 。 除 此 之 外 ， 你 还 可 以 在 这 里 找到 TCP 头 标 志 、TCP 选项 ， 以 
K TCP 和 UDP 的 知名 端口 号 。 


习题 
.如 果 一 个 UDP 数据 报 从 主机 A 的 端口 P 发 送 到 主机 局 的 端口 Q, 但 主机 B 没 有 监听 端口 Q 的 进程 ， 
那么 主机 BB 返回 一 个 ICMP 端口 不 可 达 的 报 文 给 A。 与 所 有 ICMP 报 文 一 样 ， 这 个 报 文 作为 一 个 整体 
发 给 主机 A， 而 不 是 A 上 的 端口 P。 
Ca) 给 出 何 时 一 个 应 用 程序 可 能 希望 接收 到 这 样 的 ICMP 报 文 的 一 个 例子 。 
(b) 指出 在 你 选择 的 操作 系统 上， 应 用 程序 要 接收 到 这 样 的 报 文 需要 做 些 什 么 
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Co) 为 什么 将 这 样 的 报 文 直接 发 送 回 主机 A 上 的 原始 端口 P 不 是 一 个 好 方法 ? 


. 考虑 一 个 用 于 请 求 文件 的 基于 UDP 的 简单 协议 〈 基 于 不 太 严 格 的 普通 文件 传输 协议 或 TFTP)。 客 户 


端 发 送 一 个 初始 文件 请 求 ， 服 务 器 用 第 一 个 数据 分 组 回答 〈 如 果 文 件 可 以 被 发 送 ) 。 然 后 客户 端 和 服 

务 器 使 用 停止 -等 待 传输 机 制 继 续 文件 传输 。 

Ca) 描述 客户 端 请 求 一 个 文件 却 得 到 另外 一 个 文件 的 情况 ， 可 以 允许 客户 应 用 程序 突然 退出 并 在 同一 
端口 重新 开始 。 

(b) 对 协议 提出 改进 ， 使 得 这 种 情况 的 发 生 率 大 为 减少 。 


. 设计 一 个 用 于 从 服务 器 检索 文件 的 基于 UDP 的 简单 协议 。 不 必 提 供认 证 ， 可 以 使 用 数据 的 停止 -等 待 


传输 。 你 的 协议 应 该 解决 下 列 问题 : 

(a) 第 一 个 分 组 的 拷贝 不 应 再 建立 一 个 “连接 ”。 

(b) 最 后 一 个 ACK 的 丢失 不 应 使 服务 器 怀疑 传输 是 否 成 功 。 
(c) 来 自 过 去 连接 的 迟到 分 组 不 应 被 解释 为 当前 连接 的 一 部 分 。 


. 本 章 解 释 了 TCP 连接 断 开 期 间 状 态 转 换 的 三 种 顺序 。 还 可 能 有 第 四 种 顺序 ， 即 它 经 过 另外 一 个 弧 


(没有 显示 在 图 5-7 中 ), 从 FIN_WAIT_1 到 TIME_ WAIT 且 标 有 FIN 二 ACK/ACK。 解释 导致 这 
第 四 种 状态 转换 顺序 的 环境 。 


. 关闭 一 个 TCP 连接 时 ， 为 什么 从 LAST _ ACK 到 CLOSED 的 转换 不 必 有 两 个 段 生 存 期 (two-seg- 


ment-lifetime) 的 超时 ? 


. 接收 0 通知 窗口 的 一 个 TCP 连接 的 发 送 方 定期 检查 接收 方 ， 以 便 发 现 窗口 什么 时 候 变 为 非 0。 为 什么 


当 接 收 方 负责 报告 通知 窗口 变 为 非 0 〈 即 发 送 方 不 检查 ) 时 ， 它 需要 一 个 额外 的 定时 器 ? 


. 阅读 Unix 或 Windows 应 用 程序 netstat 的 使 用 手册 。 使 用 netstat 查看 本 地 TCP 的 连接 状态 。 找 出 关 


闭 连 接 在 TIME _ WAIT 中 花费 的 时 间 。 


. TCP 首部 的 序号 字段 长 32 位 ， 足 以 处 理 40 亿 字 节 的 数据 。 即 使 在 一 个 连接 上 有 许多 序号 的 数据 从 未 


被 传送 过 ， 为 什么 序号 仍旧 可 能 从 2° 一 1 回 绕 到 07 


. 假设 你 受 雇 设计 一 个 使 用 滑动 窗口 的 可 靠 的 字 节 流 协议 (如 TCP)。 这 个 协议 将 运行 在 1Gbps 的 网 络 


上 。 网 络 的 RTT 是 100ms， 且 数据 段 的 最 大 生存 期 是 30s。 

(a) 协议 首部 的 AdvertisedWindow 字段 和 SequenceNum 字段 中 应 包含 多 少 位 ? 

(b) 怎样 确定 上 述 数值 ， 哪 个 值 可 能 不 太 确 定 ? 

假设 你 正在 设计 一 个 使 用 滑动 窗口 的 可 靠 字 节 流 协议 (如 TCP)。 这 个 协议 运行 在 1Gbps 的 网 络 上 。 
网 络 的 RTT 是 140ms， 且 最 大 段 生 存 期 是 60s。 协 议 首部 的 AdvertisedWindow 字段 和 SequenceNum 
字段 各 应 包含 多 少 位 ? 


. 假设 一 台 主 机 想 要 通过 发 送 分 组 并 测量 接收 的 百分比 的 方法 建立 一 个 可 靠 的 链 路 ， 例 如 由 路 由 器 来 


做 这 件 事 。 阐 述 在 TCP 连接 上 做 这 件 事 的 困难 。 


. 假设 TCP 运行 在 一 个 1Gbps 的 链 路 上 。 


(a) 假设 TCP 能 持续 利用 全 部 带宽 ， TCP 序号 完全 回 绕 最 快 需要 多 长 时 间 ? 
(b) 如 果 在 上 面 算出 的 回 绕 时 间 内 ， 一 个 附加 的 32 位 时 间 惟 字段 增 量 1 000 次 。 这 个 时 标 回 绕 需要 
多 长 时 间 ? 


. 假设 TCP 运行 在 一 个 40Gbps 的 STS-768 链 路 上 。 


(a) 假设 TCP 能 持续 利用 全 部 带宽 ，TCP 序号 完全 回 绕 需要 多 长 时 间 ? 

Cb) 如 果 在 你 上 面 算出 的 回 绕 时 间 内 ， 一 个 附加 的 32 位 时 标 字段 增 量 1 000 次 。 这 个 时 标 回 绕 需 要 
多 长 时 间 ? 

如 果 主 机 A 从 同一 端口 接收 远程 主机 B 的 两 个 SYN 分组, 第 二 个 SYN 分 组 可 能 是 前 一 个 SYN 分 组 

的 重 传 ， 或 是 在 B 崩溃 并 重启 动 后 一 个 全 新 的 连接 请 求 。 

Ca) 描述 主机 A 看 到 的 这 两 种 情况 的 区 别 。 

(b) 给 出 TCP 层 在 接收 一 个 SYN 分 组 时 需要 做 的 事情 的 算法 描述 。 考 虑 上 面 的 重 传 /新 连接 的 情况 ， 
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20. 


21. 


22s 


以 及 不 监听 目标 端口 的 可 能 性 。 


. 假设 + 和 vy 是 两 个 TCP 序 号 。 写 一 个 函数 确定 x 是 在 y 之 前 到 达 (RFC 793 的 表示 方法 是 “zx 二 过 


yO 还 是 在 y 之 后 到 达 eo 号 回 绕 的 情况 下 也 有 效 。 


. 假设 套 接 字 A 和 B 间 有 一 个 空闲 的 TCP 连接 。 第 三 方 已 经 窃听 并 知道 两 端的 当前 序号 。 


(a) 假设 第 三 方向 eee eee B 的 分 组 ， 并 带 有 100 字 节 的 新 数据 。 此 时 会 发 生 
情况 ? GER: 查阅 RFC 793， 了 解 当 接收 到 一 个 不 是 “可 接受 的 ACK” 的 ACK 时 ，TCP 
么 处 理 ,) 
(b) R= OO RFRA 这 时 会 发 生 什么 情况 ?如 果 A 
后 来 发 送 200 字 节 的 数据 给 B 会 发 生 什么 情况 ? 


. 假设 A 方 经 无 线 网 连接 到 因特网 上 ,使 用 DHCP 来 分 配 IP 地 址 。A 打开 多 个 Telnet 连接 (使 用 


TCP)， 随 后 断 开 无 线 网 连接 。 接 着 B 方 拨号 进入 并 被 赋予 和 A 相同 的 IP 地址。 假设 B 能 够 猿 到 A 
nl I 什么 主机 ， 描 述 一 个 探测 序列 ， 能 够 使 B 获得 足够 的 状态 信息 以 继续 A 的 连接 。 
诊断 程序 一 般 能 够 用 来 记录 对 某 个 〈 主 机， 端口 的 每 个 TCP 连接 的 前 100 个 字 节 。 简 述 对 每 个 接 
pine TCP 分 组 P 必须 做 什么 ， 才 能 确定 它 是 否 包 含 对 主机 HOST 、 端 口 PORT 的 连接 的 前 100 个 
节 数 据 。 假设 IP 的 首部 是 P. IPHEAD，TCP 首部 是 P. TCPHEAD， 且 首部 字段 命名 如 图 3-16 和 
图 5-4 所 示 。( 提 示 : 为 得 到 初始 化 序号 (ISN)， 你 必须 检查 每 个 分 组 的 SYN 位 的 设置 。 忽 略 序号 最 
终 被 重用 的 事实 ,) 


. 如 果 源 地 址 为 B 的 分 组 到 达 主 机 A， 那 么 它 将 很 容易 被 任何 第 三 方 主机 C 伪造 。 但 是 如 果 A 接受 来 


A BAY TCP 连接 ， 那 么 在 三 次 握手 过 程 中 ，A 向 B 的 地 址 发 送 ISNA 并 且 接 收 它 的 一 个 确认 。 如 果 

C 不 在 能 窃听 ISNA 的 位 置 ， 则 C 不 能 伪造 B 的 响应 。 

人 然而， 选择 ISNA 的 算法 确实 给 其 他 不 相关 主机 提供 了 一 个 猜测 它 的 平等 机 会 。 尤 其 是 A 基于 连接 

时 的 时 钟 值 选择 ISNA. RFC 793 指出 这 个 时 钟 值 每 4ms 增加 1， 通 用 的 Berkeley 实现 曾 对 此 简化 为 

每 秒 钟 一 次 增加 250 000 (或 256 000) 。 

Ca) 给 出 这 个 简化 的 每 秒 增加 一 次 的 实现 ， 解 释 任意 主机 C 至 少 在 打开 TCP 时 如 何 假扮 B。 你 可 以 
假设 也 不 对 A 内 受骗 发 送 给 它 的 SYN 十 ACK 分 组 做 响应 。 

(b) 假设 实际 的 RTT 可 以 估计 为 40ms 以 内 ， 使 用 非 简化 的 “每 4ms 增加 一 次 ”的 TCP 实现 ， 你 期 
望 实现 (a) 中 策略 要 尝试 多 少 次 ? 

在 绝 大 多 数 TCP 的 实现 中 都 内 置 有 Nagle 算法 ， 它 要 求 发送 方 不 发 送 不 满 整 段 的 数据 (即使 是 被 

PUSH 操作 发 送 的 )， 直 到 积累 够 一 个 完整 的 数据 段 或 最 近 未 确认 的 ACK 到 达 。 

(a) 假设 通过 RTT 为 4. 1s 的 TCP 连接 发 送 字 母 申 abcdefghi， 每 秒 发 送 一 个 字母 。 请 画 出 时 间 线 表 
明 何 时 发 送 每 个 分 组 ， 以 及 其 中 包含 什么 。 

b) 如 果 在 一 条 全 双 工 Telnet 连接 上 发 送 以 上 内 容 ， 用 户 会 看 到 什么 ? 

Co) 假设 通过 这 条 连接 发 送 鼠 标 位 置 的 变化 。 若 在 每 个 RTT 期 间 发 送 多 次 鼠标 位 置 变化 ， 那 么 在 用 
Nagle 算法 和 不 用 Nagle 算法 的 情况 下 ， 用 户 将 会 看 到 鼠标 是 如 何 移动 的 ? 

假设 客户 端 C 不 断 地 通过 TCP 连接 服务 器 S 上 的 给 定 端口 ， 并 且 每 次 由 C 起 动 关闭 。 

(a) 在 C 使 它 的 所 有 可 用 端口 处 于 TIME _ WAIT 状态 之 前 ， 每 秒 钟 可 以 建立 多 少 个 TCP 连接 ? 假 
设 客户 端的 短期 端口 的 范围 为 1024 一 5119， 并 假设 TIME _ WAIT 持续 时 间 是 60s。 

(b) Berkeley 的 TCP 实现 通常 允许 如 果 旧 连接 实例 使 用 的 最 高 序号 比 新 实例 使 用 的 ISN 小 ， 那 么 在 
TIME _ WAIT 到 期 之 前 ,一 个 处 于 TIME _ WAIT 状态 的 套 接 字 可 以 再 次 打开 ， 这 解决 了 旧 数 
据 被 当 作 新 数据 接收 的 问题 。 但 是 ，TIME WAIT 也 用 于 处 理 迟 到 的 最 后 FIN 的 目的 。 这 样 的 
实现 必须 怎么 做 才能 解决 这 个 问题 ， 并 仍然 完全 满足 TCP 的 要 求 ， 即 FIN 可 以 在 一 个 连接 的 
TIME _ WAIT 状态 收 到 同一 响应 之 前 或 期 间 的 任何 时 刻 被 发 送 ? 

解释 为 什么 如 果 服 务 器 先 于 客户 端 局 动 关闭 ， 则 TIME WAIT 会 是 很 严重 的 问题 。 描 述 一 种 会 发 生 

这 种 问题 的 情况 。 
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. Karn 和 Partridge 提出 指数 增长 超时 值 的 理由 是 什么 ”特别 要 说 明 为 什么 不 用 线性 (或 更 慢 ) 增长 ? 
4. Jacobson/Karels 算法 将 TimeOut 设 为 4 倍 平 均 偏 差 而 不 是 平均 值 。 假 设 单个 分 组 的 往返 时 间 遵 循 统 


计 正 态 分 布 ， 即 4 倍 平均 偏差 都 是 x 标准 偏差 。 使 用 统计 表 计 算 一 个 分 组 会 超时 到 达 的 概率 是 多 少 


25. 假设 一 个 窗口 大 小 为 1 的 TCP 连接 ,每 隔 一 个 分 组 丢弃 一 个 分 组 。 到达 的 分 组 的 RTT=1s. 考虑 下 


面 两 种 情况 各 会 发 生 什么 ”对 TimeOut 会 发 生 什么 ? 

(a) 收 到 分 组 后 ， 从 停止 的 地 方 开始 ， 假 设 EstimatedRTT 被 初始 化 为 预定 的 超时 值 ， 而 且 TimeOut 
是 它 的 2 倍 。 

(b) 收 到 分 组 后 ， 重 新 将 TimeOut 初始 化 为 上 次 超时 间隔 使 用 的 指数 退 避 的 值 . 

以 下 4 道 习 题 中 的 计算 用 电子 表格 是 很 简单 的 。 

假设 在 TCP 的 自 适应 重 传 机 制 中 ，EstimatedRTT 在 某 时 刻 为 4.0s， 其 后 测 得 的 RTT 全 为 1.0s。 接 

照 Jacobson/Karels 算法 的 计算 ，TimeOut 要 多 长 时 间 才 会 变 得 小 于 4.0s? 假设 请 你 给 出 一 个 合理 的 

Deviation 初始 值 ， 你 的 答案 对 这 个 选择 的 敏感 度 如 何 ? 使 用 6=1/8. 


. 假设 在 TCP 的 自 适 应 重 传 机 制 中 ，EstimatedRTT 在 某 时 刻 为 90， 其 后 测 得 的 RTT 全 为 200。 按照 


Jacobson/Karels 算法 的 计算 ，TimeOut 要 多 长 时 间 才 会 变 得 小 于 300? 假设 Deviation 初始 值 为 25. 

使 用 8 二 1/8。 

假设 TCP 测 得 的 RTT 值 除 了 每 第 NN 个 RTT 是 4.0s 以 外 ， 其 他 都 是 1.0s。 最 大 的 NN 大约 是 多 少 才 

不 会 在 稳定 状态 ( 即 Jacobson/ Karels 算法 中 的 TimeOut 保持 大 于 4. 0s) 时 发 生 超时 ?使 用 6=1/8 

假设 TCP 正在 测量 的 RTT 一直 是 1.0s, 平均 偏差 是 0. ls. KA RTT 跳 到 5. 0s. 没有 偏差 . ee 原 

始 算法 和 Jacobson/Karels 算法 在 计算 TimeOut 时 有 什么 不 同 ? 特 别 地 ， 每 种 算法 各 过 到 多 少 

时 ? 计算 得 到 的 最 大 的 TimeOut BA? 使 用 O=1/8. 

假设 一 个 TCP 分 段 被 发 送 多 次 ， 我 们 取 SampleRTT 为 最 初 发 送 和 ACK 之 间 的 时 间 ， 如 图 5-10a 所 

示 。 请 说 明 如 果 一 个 TCP 连接 有 一 个 分 组 大 小 的 窗口 ， 它 每 隔 一 个 分 组 就 丢弃 一 个 分 组 ( 即 每 个 分 

组 传送 两 次 )， 那 么 EstimatedRTT 会 增加 到 无 穷 大 。 假设 TimeOut= 二 EstimatedRTT， 正 文中 描述 的 

两 种 算法 会 把 TimeOut 设置 得 更 大 。( 提 示 : EstimatedRTT=EstimatedRTT +2 (SampleRTT 一 Es 

timatedRTT).) 

假设 当 一 个 TCP 分 段 被 发 送 多 次 时 ， 取 SampleRTT 为 最 近 一 次 传送 和 ACK 之 间 的 时 间 ， 如 图 5-10b 

所 示 。 假 设 TimeOut 二 2X EstimatedRTT。 描 述 一 种 情况 ,其 中 没有 分 组 丢失 ,但 EstimatedRTT 收 

敛 到 真正 的 RTT 的 1/3， 并 画 出 最 后 稳定 状态 的 示意 图 。 (提示: 真正 的 RTT 是 以 一 个 突然 跳跃 开 

始 ， 这 个 跳跃 刚好 超过 建立 的 TimeOut fË.) 

查阅 RFC 793， 找 出 如 果 一 个 FIN 或 RST 到 达 但 序号 不 是 NextByteExpected 时 ，TCP 应 该 如 何 响 

应 ? 考虑 序号 在 接收 窗口 内 和 不 在 接收 窗口 内 的 两 种 情况 。 

TIME _ WAIT 的 作用 之 一 是 处 理 很 晚 到 达 的 第 一 个 连接 实例 的 数据 分 组 被 当 作 第 二 个 实例 的 数据 收 

下 的 情况 。 

(a) 对 于 在 没有 TIME _ WAIT 时 发 生 的 这 种 情况 ， 解 释 为 什么 连接 的 主机 在 延迟 的 分 组 被 发 出 以 后 
但 未 被 传递 之 前 不 得 不 顺序 交换 几 个 分 组 。 

Cb) 提出 一 种 可 以 导致 这 种 延迟 传递 的 网 络 情况 。 

提出 一 种 对 TCP 的 扩展 ， 使 得 连接 的 一 端 可 以 将 它 这 一 端 转交 给 第 三 台 主 机 ; 也 就 是 说 ， 如 果 原 来 

A 与 B 连 接 ，A 将 它 的 连接 转交 给 C， 那 么 这 以 后 C 将 与 B 连 接 ， 而 A 将 不 再 保持 这 个 连接 。 请 说 

明 在 TCP 状态 转换 图 中 所 需 的 新 状态 和 新 转换 ， 以 及 用 到 的 任何 新 分 组 类 型 。 可 以 假设 各 方 都 会 理 

解 这 个 新 选项 。A 在 转交 之 后 应 该 进入 什么 状态 ? 

TCP 的 同时 打开 性 质 是 极 少 用 到 的 。 

(a) 改变 TCP， 使 之 禁用 同时 打开 。 指出 状态 图 (如果 必要 也 包括 不 在 图 中 的 事件 响应 ) 应 做 哪些 
改变 。 

Cb) TCP 可 以 禁用 同时 关闭 吗 ? 
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(c) 改变 TCP， 使 两 台 主 机 同时 交换 SYN 会 导致 两 个 独立 的 连接 。 指出 这 要 求 状 态 图 做 什么 
同时 首部 有 必要 做 什么 改变 。 注 意 现在 这 意味 着 在 一 个 给 定 的 《〈“ 主 机， 端 En 
接 。( 可 以 查阅 RFC 1122 第 87 页 的 第 一 个 “讨论 ”项 。) 

TCP 是 一 个 非常 对 称 的 协议 ， 但 是 客户 端 /服务 器 模型 不 是 对 称 的 。 考虑 一 个 非 对称 的 TCP 式 的 协 

议 ， 其 中 只 有 服务 器 方 被 赋予 一 个 可 被 应 用 层 看 到 的 端口 号 。 客 户 端的 套 接 字 只 是 能 连 到 服务 器 端 

口 的 抽象 , 

(a) 提出 一 种 首部 数据 和 连接 的 语义 以 支持 这 种 情况 。 你 将 用 什么 代替 客户 端的 端口 号 ? 

(b) 现在 TIME_WAIT 采取 什么 形式 ?通过 编程 接口 如 何 看 到 这 一 点 ?假设 客户 端 套 接 字 现在 可 以 
任意 多 次 地 重复 连接 到 给 定 的 服务 器 端口 和 许可 的 资源 上 。 

(c) 查阅 rsh/rlogin 协议 。 为 什么 上 面 的 设想 将 导致 其 不 可 用 ? 


. 下 面 的 习题 与 TCP ee FIN_WAIT_2 @X (LIA 5-7). 


Ca) 描述 客户 端 怎样 使 一 个 适当 的 服务 器 无 限期 地 处 于 状态 FIN_WAIT_2。 对 这 种 情况 ， 服 务 器 的 协 
议 需 要 有 什么 特性 ? 

Cb) 在 某 种 现 有 的 服务 器 上 试验 这 种 情况 。 可 以 写 一 个 桩 客户 程序 ， 或 者 用 一 个 现成 的 可 以 连 到 任意 

一 个 端口 的 Telnet 客户 程序 。 使 用 netstat 工具 验证 服务 器 处 于 状态 FIN_WAIT_2, 

在 RFC 1122 中 关于 TCP 有 以 下 陈述 : 

一 各 主机 可 以 实现 一 个 “ 半 双 工 ” 的 TCP 关闭 顺序 ， 因 此 一 经 调用 CLOSE 的 应 用 程序 不 能 继 

续 从 连接 读数 据 。 如 果 这 样 一 台 Wafer en 

CLOSE 后 TCP 仍 收 到 新 数据 ， 那 么 它 的 TCP 应 该 发 出 一 个 RST 说 明 数 据 丢 失 。” 

描述 包含 以 上 陈述 的 一 种 情景 ， 其 中 被 正在 关闭 的 主机 发 送 (而 不 是 发 向 它 ) 的 数据 丢失 。 你 可 以 

假设 远程 主机 在 收 到 RST 时 会 丢弃 已 接收 到 缓冲 区 但 还 未 被 读 出 的 所 有 g 

“4 TCP 发 出 (SYN, SequenceNum=.r) 或 (FIN, SequenceNum= x) 时， 后 的 ACK 有 Acknowl- 

ee 

要 ， 请 给 出 一 个 相应 的 Acknowledgment 是 z MAE 2+ 1 时 会 发 生 混乱 的 例子 。 如 果 没 有 必要 ， 请 解 

BATA 

从 RFC 793 中 查 出 TCP 首部 选项 的 一 般 格 式 。 

Ca) 概述 一 种 策略 ， 它 可 以 扩展 选项 可 用 的 空间 以 超出 当前 44 字 节 的 限制 。 

Cb) 提出 一 种 TCP 扩展 ， 允 许 选项 的 发 送 方 说 明 在 接收 方 不 理解 选项 含义 时 应 做 什么 出 这 样 几 
种 可 能 有 用 的 接收 方 动作 ， 并 试 着 为 每 个 动作 的 应 用 给 出 一 个 例子 。 


.TCP 的 首部 没有 引导 ID 字段 ， 当 TCP 连接 的 一 端 崩溃 并 重启 ， 然 后 发 送 一 个 具有 先前 使 用 过 的 ID 


的 报 文 时 ， 为 什么 不 会 出 现 问 题 ? 


. 假设 使 用 提供 零 次 或 多 次 语义 的 不 可 靠 RPC 协议 实现 远程 文件 系统 安装 。 如 果 收 到 报 文 应 答 ， 就 改 


进 为 至 少 一 次 语义 。 定义 read(n) 返回 指定 的 第 关 块 ， 而 不 是 按 顺 序 的 下 一 块 ， 这 种 方式 汛 一 次 相 

当 于 读 两 次 ， 而 且 至 少 一 次 语义 也 就 等 同 于 正好 一 次 语义 。 

(a) 对 于 文件 系统 的 哪些 操作 ， 至 少 一 次 语义 和 正好 一 次 语义 没有 区 别 ? 考虑 open, create, write, 
seek 、opendir、readdir、mkdir、delete (aka unlink) 和 rmdir, 

Co) 对 余下 的 操作 ， 哪 些 能 改变 语义 使 至 少 一 次 语义 和 正好 一 次 语义 等 价 ? 文件 系统 的 什么 操作 不 能 
与 至 少 一 次 语义 相 容 ? 

(co) 假设 rmdir 系统 调用 的 语义 是 ， 如果 给 定 的 目录 存在 则 删除 它 ， 否 则 什么 也 不 做 。 那 么 怎样 写 一 
个 能 区 别 这 两 种 情况 的 删除 日 录 的 程序 ? 

基于 RPC 的 NFS 远程 文件 系统 有 时 被 认为 具有 比 期 望 的 write 慢 的 性 能 。 在 NFS 中 ， 服 务 器 的 RPC 

对 客户 端 write 请 求 的 应 答 意 味 着 数据 被 物理 写 人 服务 器 的 磁盘 ， 而 不 只 是 放 人 队列 中 。 

(a) 如 果 客 户 端 通过 一 条 单独 的 逻辑 CHAN 信道 发 送 所 有 write 请 求 〈 即 使 有 无 限 带宽 )， 解 释 我 们 
可 以 预料 到 的 瓶颈 ， 并 解释 为 什么 使 用 一 个 信道 池 会 有 所 帮助 。 (提示 : 你 需要 知道 一 点 磁盘 控 
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制 器 的 知识 。) 

Cb) 假设 服务 器 的 应 答 只 意味 着 数据 被 放 入 磁盘 队列 。 解 释 为 什么 不 使 用 本 地 磁盘 会 导致 数据 丢失 
注意 ， 忽 略 数据 刚 进 队 列 系统 就 崩溃 的 情况 ， 因 为 在 这 种 情况 下 用 本 地 磁盘 也 会 引起 数据 丢失 

Cc) 一 个 选择 是 让 服务 器 立即 确认 write 请 求 ， 稍 后 发 送 它 自己 独立 的 请 求 确认 物理 写 操 作 的 完成 
请 提出 能 达到 相同 效果 的 不 同 的 RPC 语义 ,但 是 用 一 个 逻辑 请 求 /应 答 。 

考虑 一 个 使 用 包含 信道 抽象 和 引导 ID 的 RPC 机 制 的 客户 端 和 服务 器 . 

(a) 给 出 一 个 涉及 服务 器 重启 的 方案 ,在 该 方案 中 RPC 请 求 被 客户 端 发 送 两 次 ， 被 服务 器 执行 两 次 ， 
但 只 有 一 个 ACK。 

Cb) 客户 端 如 何 意识 到 事件 的 发 生 ? 客户 端 能 确信 事件 已 经 发 生 了 吗 ? 

假设 RPC 请 求 正 好 形成 了 “磁盘 块 N 中 字段 X 的 值 以 10% 递 增 *"， 对 正在 执行 的 服务 器 给 定 一 种 机 

制 ， 即 使 在 操作 过 程 中 服务 器 发 生 崩 演 也 能 保证 一 个 到 达 的 请 求 恰 好 执行 一 次 。 假 设 单独 的 磁盘 块 

写 操作 完成 或 块 没有 改变 ， 也 可 以 假设 一 些 指派 的 “撤销 日 志 ” 块 是 可 用 的 。 你 的 机 制 应 该 包括 

RPC 服务 器 在 重启 时 会 有 什么 操作 。 

考虑 一 个 向 服务 器 发 送 请 求 的 SunRPC 客户 端 。 

(a) 在 什么 情况 下 ， 客 户 端 能 够 确信 其 请 求 恰好 被 执行 了 一 次 ? 

(Cb) 假设 希望 把 至 多 一 次 语义 加 到 SunRPC 中 ， 应 做 什么 改变 ? 解释 为 什么 向 现 有 的 首部 添加 一 个 或 
多 个 字段 是 不 够 的 。 


假设 用 TCP 完成 一 个 RPC 协议 的 底层 传输 ， 每 个 TCP 连接 传输 一 个 连续 的 请 求 和 应 答 流 。TCP 需 
要 有 以 下 什么 字段 〈 如 果 有 的 话 ) : 

(a) 信道 ID。 (b) 报 文 ID. 

(c) 引导 ID. (d) 请 求 报 文 类 型 。 

Ce) 应 答 报 文 类 型 。 D 确认 报 文 类 型 。 


(g)“ 你 仍 活跃 着 吗 ” 报 文 类 型 。 

其 中 哪些 是 上 层 RPC 协议 必须 提供 的 ? 存在 某 些 相似 的 隐 式 确认 吗 ? 

写 一 个 测试 程序 ， 用 套 接 字 接 口 在 一 对 被 某 种 LAN (例如 以 太 网 、802. 11) 连接 的 UNIX 工作 站 间 

发 送 报 文 。 用 这 个 测试 程序 完成 以 下 实验 。 

(a) 测量 不 同 报 文大 小 情况 下 (例如: 1 字 节 ，100 字 节 ，200 字 节 ，…，1 000 FW) TCP 和 UDP 
的 往返 时 延 。 

(b) 测量 1KB, 2KB, 3KB, ++, 32KB 报 文 的 TCP 和 UDP 的 吞吐 量 。 绘 出 测 得 的 吞吐 量 和 报 文大 
小 的 函数 关系 图 。 

(c) 测量 TCP 从 一 台 主 机 向 另 一 台 主 机 发 送 1MB 数据 的 吞吐 量 。 通 过 循环 发 送 一 定 大 小 的 报 文 来 实 
现 ， 例 如 每 次 发 送 1KB， 重复 1 024 次 。 用 不 同 大 小 的 报 文 重复 这 个 实验 ， 并 画 出 结果 的 图 形 . 

找 出 RTP 应 用 程序 可 以 完成 以 下 功能 的 情形 : 

。 在 需要 不 同时 间 戳 但 本 质 上 是 同一 时 间 内 发 送 多 个 分 组 。 

。 在 需要 相同 时 间 改 的 不 同时 间 内 发 送 分 组 。 

结果 ， 在 一 些 情况 下 ，RTP 时 间 改 必须 由 应 用 程序 来 提供 〈 至 少 是 间接 提供 )。 提示: 考虑 发 送 速 

率 和 播放 速率 可 能 不 匹配 的 情况 。) 

帧 时 间或 声音 样本 时 间 的 时 间 改 时 钟 计量 单位 应 该 有 最 小 的 分 辨 能 力 ， 以 确保 精确 的 播放 ， 但 时 间 

单位 通常 是 相当 小 的 ， 这 样 做 的 目的 是 什么 ? 

假设 想 要 从 接收 方 返回 RTCP 报告 ， 其 总 量 不 超过 流出 的 RTP 流 的 5%。 如 果 每 个 报告 是 84 字 节 ， 

RTP 流量 是 320kbps， 有 1 000 个 接收 容器 ,那么 接收 方 多 和 久 能 够 获得 一 个 报告 ? 如 果 有 10 000 个 接 

收容 器 呢 ? 

RFC 3550 指明 接收 方 RTCP 报告 间 的 时 间 间 隔 包 括 一 个 随机 因素 以 避免 所 有 接收 方 在 同一 时 间 发 

送 。 如 果 所 有 接收 方 在 其 应 答 时 间 间 隔 的 5% 的 子 间隔 内 发 送 ， 到达 的 上 游 RTCP 流量 将 与 下 游 的 
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53. 
. 提出 一 种 决定 何 时 报告 RTP 分 组 丢失 的 机 制 ,将 该 机 制 与 5. 2.6 节 中 的 TCP 自 适应 重 传 机 制 进行 


RTCP 流量 竞争 。 

Ca) 视频 接收 方 在 发 送 报告 时 可 以 适当 地 等 待 发 送 ， 直 到 处 理 并 显示 一 帧 的 高 优先 权 任 务 被 完成 了 。 
这 可 能 意味 着 它们 的 RTOP 传输 在 帧 边界 是 同步 的 。 这 是 值得 重点 关注 的 吗 ? 

b) 有 10 个 接收 方 ， 它们 都 在 一 个 特定 的 5% 子 间隔 内 发 送 的 概率 是 多 少 ? 

(c) 有 10 个 接收 方 ， 它们 中 半数 都 在 一 个 特定 的 5% 子 间隔 内 发 送 的 概率 是 多 少 ? 接收 方 增加 20 4% 
后 ,它们 中 半数 都 在 同样 的 5% 子 间隔 内 发 送 的 概率 是 多 少 ? GER: 在 10 个 接收 方 中 选 择 5 个 
有 多 少 种 方法 ?) 

服务 器 如 何 处 理 分 组 丢失 速率 数据 和 接收 方 报告 中 的 抖动 数据 ? 


比较 。 
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拥塞 控制 与 资源 分 配 
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问题 : 分 配 资源 

到 目前 为 止 ， 为 了 理解 数据 如 何在 异 构 网 络 的 进程 之 间 传 输 ， 我 们 已 经 学 习 了 组 成 网 
络 协议 层次 结构 的 足够 多 的 层 。 现 在 我 们 转 到 一 个 贯穿 整个 协议 栈 的 问题 ， 当 用 户 竞 争 资 
源 时 ,如何 有 效 和 公平 地 分 配 这 些 资源 。 共 享 资源 包括 链 路 带宽 以 及 路 由 器 或 交换 机 上 的 
缓冲 区 ， 所 有 分 组 都 在 缓冲 区 中 排队 等 待 发 送 。 分 组 在 路 由 器 中 争 用 (contend) 链 路 的 
使 用 权 ， 链 路 上 每 个 参与 争 用 的 分 组 都 被 放 在 队列 中 等 待 通过 链 路 顺序 发 送 。 当 过 多 的 分 
组 争 用 同一 条 链 路 时 ， 队 列 就 会 溢出 ,分 组 将 不 得 不 被 丢弃 。 如 果 常 常 发 生 分 组 丢失 的 情 
况 ， 就 称 作 网 络 拥 塞 (congested)。 大 多 数 的 网 络 提供 拥塞 控制 Ccongestion-control) 机 
制 来 处 理 这 种 情况 。 

拥塞 控制 和 资源 分 配 是 同一 事物 的 两 个 方面 。 一 方面 ， 如果 网 络 在 资源 分 配方 面 采 取 
积极 的 措施 (例如 ， 在 一 个 特定 的 时 间 周 期 内 调度 某 一 条 虚 电 路 使 用 指定 的 物理 链 路 ). 
就 可 以 避免 拥塞 ， 从 而 没有 必要 进行 拥塞 控制 。 然而， 以 任意 的 精度 来 分 配 网 络 资源 都 是 
相当 困难 的 ， 因 为 我 们 讨论 的 资源 分 布 在 整个 网 络 ， 需 要 调度 连接 着 一 系列 路 由 器 的 多 条 链 
路 。 男 一 方面 ， 也 可 以 允许 发 送 方 想 发 多 少数 据 就 发 多 少数 据 ， 人 然后 当 拥 塞 发 生 时 将 其 恢 
复 。 这 种 方法 比较 容易 实现 , 但 它 也 有 具有 一 定 的 破坏 性 ， 因 为 在 拥塞 控制 前 网 络 可 能 会 丢弃 
许多 分 组 ， 并 且 在 网 络 恰好 发 生 拥 塞 时 ， 即 资源 相对 于 需求 来 说 变 得 缺乏 时 ， 竞 争 用 户 会 最 
强烈 地 感觉 到 对 资源 分 配 的 急切 需求 。 此 外 也 有 一 些 折 吏 的 解决 方案 ， 先 做 一 些 不 太 精 确 的 
分 配 决定 ， 当 然 拥 塞 依 然 会 发 生 ， 因 此 还 需要 采取 一 些 从 拥塞 中 恢复 的 措施 。 把 这 种 混合 解 
决 方案 称 为 拥塞 控制 还 是 资源 分 配 都 无 关 紧 要 ， 从 某 种 意义 上 来 说 ， 它 是 二 者 兼 而 有 之 。 

拥塞 控制 和 资源 分 配 与 主机 和 网 络 设 备 〈 如 路 由 器 ) 都 有 关 。 在 网 络 设备 中 可 用 各 种 排 
队 规 则 控制 分 组 传送 的 顺序 和 丢弃 哪些 分 组 。 排 队 规则 也 可 以 隔离 通信 量 . 使 一 个 用 户 的 分 
组 不 会 过 分 地 影响 另 一 个 用 户 的 分 组 。 在 端 主机 上 , 拥塞 控制 机 制 协调 源 端 发 送 分 组 的 速度 
拥塞 控制 机 制 首 先 要 尽力 采取 措施 避免 拥塞 的 出 现 ， 拥 塞 一 旦 发 生 ， 则 要 尽快 消除 拥塞 

本 章 首 先 概 述 拥塞 控制 和 资源 分 配 。 然 后 讨论 网 络 内 部 路 由 器 上 可 实现 的 不 同 排队 规 
则 ， 接 着 描述 一 个 在 主机 上 由 TCP 提供 的 拥塞 控制 算法 。6.4 节 探 讨 与 路 由 融和 主机 都 相 
关 的 各 种 技术 ， 目 的 是 在 拥塞 成 为 一 个 问题 之 前 予以 避免 。 本 章 最 后 考察 服务 质量 (qual 
ity of service) 涉及 的 广泛 领域 。 我 们 考虑 不 同 应 用 对 网 络 中 资源 分 配 的 不 同 震 求 级 别 ， 
同时 描述 应 用 请 求 资 源 和 网 络 满足 请 求 的 各 种 方法 。 


6.1 资源 分 配 问 题 ， 
资源 分 配 和 拥塞 控制 是 复杂 的 问题 ， 从 设计 第 一 个 网 络 以 来 它们 就 一 直 是 许多 研究 的 主 
题 。 如 今 它们 依然 是 活路 的 研究 领域 。 使 这 些 问 题 如 此 复杂 的 因素 之 一 是 ， 它 们 不 能 被 划分 
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到 协议 层次 结构 的 某 一 层 上 。 资 源 分 配 有 一 部 分 在 网 络 中 的 路 由 器 、 交 换 机 和 链 路 上 实现 ， 
男 一 部 分 在 端 主机 上 运行 的 传输 层 协议 中 实现 。 端 系统 可 能 使 用 信 令 协议 向 网 络 节点 发 送 资 
源 请 求 ， 网 络 节点 将 可 用 资源 的 信息 反馈 给 它 。 本 章 的 一 个 主要 目标 是 定义 一 个 框架 ， 使 得 
这 些 机 制 在 其 中 是 可 以 理解 的 ， 同 时 对 这 些 机 制 中 有 代表 性 的 实例 给 出 有 关 细 节 。 

在 继续 讨论 之 前 ， 我们 先 解释 几 个 术语 的 含义 。 资 源 分 配 (resource allocation) 是 指 一 
个 过 程 ， 网 络 设备 通过 它 来 尽量 满足 应 用 对 网 络 资源 的 竞争 需求 ， 这 里 的 资源 主要 指 链 路 带 
宽 和 路 由 器 或 交换 机 上 的 缓冲 区 空间 。 当 然 ， 它 常常 不 能 满足 所 有 需求 ， 即 一 些 用 户 或 应 用 
获得 的 网 络 资源 可 能 比 它们 需要 的 少 。 部 分 资源 分 配 问题 在 于 何 时 说 不 以 及 对 谁 说 不 。 

我 们 用 拥塞 控制 (congestion control) 这 个 术语 来 描述 网 络 节 点 为 防止 和 响应 过 载 状 
态 所 做 的 工作 。 由 于 拥塞 对 每 个 人 来 说 一 般 都 不 是 好 事情 ， 所 以 当务之急 是 使 拥塞 下 降 ， 
或 者 首先 防止 它 的 出 现 。 说 服 少数 主机 停止 发 送 从 而 改善 其 他 每 台 主 机 的 状况 ， 就 可 以 简 
单 地 实现 拥塞 控制 。 但 是 对 于 拥塞 控制 机 制 而 言 ， 或 许 更 注重 公平 的 观念 . MAS. EN 
试图 让 所 有 用 户 分 担 困 难 ， 而 不 是 只 让 几 个 用 户 承担 很 大 的 困难 。 于 是 我 们 看 到 现在 许多 
拥塞 控制 机 制 中 都 引入 了 资源 分 配 的 概念 

理解 流量 控制 和 拥塞 控制 的 区 别 也 是 非常 重要 的 。 正 如 我 们 在 2. 5 节 看 到 的 ， 流 量 控 
制 是 为 了 使 快速 的 发 送 方 不 能 超出 慢 速 的 接收 方 。 与 之 相反 ,拥塞 控制 是 考虑 到 网 络 某 些 
点 上 资源 的 缺乏 ， 因 而 阻止 一 组 发 送 方向 网 络 中 发 送 过 多 的 数据 。 这 两 个 概念 经 常 混淆 ， 
然而 正如 我 们 将 看 到 的 ， 它 们 也 会 共用 某 些 机 制 。 


6. 1.1 网 络 模型 

首先 我 们 定义 网 络 体 系 结构 的 三 个 主要 特性 。 在 很 大 程度 上 ， 这 是 对 前 几 章 提 到 的 有 
关 资 源 分 配 问 题 的 总 结 。 

1. 分 组 交换 网 

我 们 来 考虑 在 由 多 链 路 和 交换 机 (或 路 由 器 〉 组 成 的 分 组 交换 网 (或 互联 网 ) 中 的 资 
源 分 配 。 本 革 描 述 的 大 多 数 机 制 是 为 因特网 上 的 使 用 而 设计 的 ， 因 此 最 初 的 定义 都 是 用 路 
由 器 而 不 是 交换 机 ， 在 我 们 的 讨论 中 都 用 路 由 器 (router) 这 一 术语 。 不 论 是 网 络 还 是 互 
联网 ， 问 题 基 本 上 是 相同 的 。 

在 这 样 的 环境 中 ， 一 个 给 定 源 可 能 在 立即 输出 链 路 上 有 足够 的 容量 来 发 送 分 组 ， 但 到 
了 网 络 中 间 的 某 处 ， 它 的 分 组 会 遇 到 一 条 正 被 许多 不 同 通信 源 使 用 的 链 路 。 图 6-1 描述 了 
这 种 情况 : 两 条 高 速 链 路 正 传输 给 一 条 低速 链 路 。 这 与 像 以 太 网 和 无 线 网 这 样 的 共享 访问 
网 络 形 成 对 比 ， 在 共享 访问 网 络 中 ， 源 可 以 直接 观察 网 络 上 的 通信 和 量 并 决定 是 否 发 送 一 个 
分 组 。 我 们 已 经 见 过 用 于 在 共享 访问 网 络 上 分 配 带宽 的 算法 (第 2 章 )。 从 某 种 意义 上 说 ， 
这 些 访问 控制 算法 与 交换 网 中 的 拥塞 控制 算法 类 似 。 

结论 ”注意 拥塞 控制 与 路 由 选择 不 同 。 虽 然 对 拥塞 的 链 路 确实 可 由 路 由 传播 协议 

赋 子 一 个 大 的 边 权 值 ， 其 结果 是 路 由 器 将 绕 过 该 链 路 ， 但 是 “ 绕 过 ”拥塞 链 路 基 

本 没有 解决 拥塞 的 问题 。 为 清楚 这 一 点 ， 我 们 只 需 看 图 6-1 所 示 的 简单 网 络 ， 图 

中 所 有 通信 量 都 必须 流 经 同一 路 由 器 到 达 目 的 地 。 尽 管 这 是 一 个 极端 的 例子 ， 但 

茶 台 路 由 器 不 能 被 绕 过 的 情况 是 常见 的 ,这 台 路 由 器 会 变 成 拥 寨 的 ， 而 没有 任 





S Internet 上 的 路 由 是 非常 复杂 的 ， 最 好 的 情况 就 是 获得 合理 的 路 由 方向 ， 且 没有 形成 路 由 回路 。 绕 过 拥塞 的 路 
由 相当 于 是 蛋糕 上 的 糖衣 . 
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何 路 由 机 制 可 以 解决 这 个 问题 。 这 种 拥塞 的 路 由 器 有 时 称 为 瓶颈 (bottleneck) 


路 由 器 。 
源 1 
=... 
C | Ans 
10Mbps 以 太 网 络 B 
源 2 \ 1.5Mbps TI 链 路 。 
L 
L 
图 6-1 一 个 潜在 的 瓶颈 路 由 吕 
2. 无 连接 流 


在 我 们 讨论 的 大 多 数 情 况 下 ， 假 设 网 络 基本 上 是 无 连接 的 ， 任 何 面向 连接 的 服务 均 在 
端 主机 上 运行 的 传输 协议 中 实现 (我 们 稍 后 解释 “基本 上 ”的 含义 )。 这 正 是 因特网 的 模 
型 ， 其 中 IP 提供 无 连接 数据 报 传输 服务 ， 而 TCP 实现 端 到 端的 连接 抽象 。 请 注意 这 一 假 
设 不 包括 像 X. 25 ( 见 3. 1.2 节 ) 这 样 的 虚 电 路 网 络 。 在 建立 虚 电路 时 ， 一 个 连接 建立 报 
文 将 穿越 网 络 。 这 个 建立 报 文 为 每 台 路 由 器 的 连接 保留 一 系列 缓冲 区 ， 从 而 提供 一 种 拥塞 
控制 形式 一 一 只 有 在 每 台 路 由 器 上 都 能 分 配 足够 的 缓冲 区 时 ， 连 接 才 能 建立 。 这 种 方法 的 
主要 缺点 是 导致 资源 的 不 充分 利用 一 一 为 某 个 特定 的 电路 保留 的 缓冲 区 即使 在 空闲 时 也 不 
能 被 其 他 传输 使 用 。 本 章 重 点 讨论 的 是 在 一 个 互联 网 中 使 用 的 资源 分 配方 法 ， 因 而 我 们 主 
要 关注 无 连接 网 络 。 

因为 我 们 将 网 络 分 类 为 无 连接 和 面向 连接 时 是 过 于 严格 的 ， 在 两 者 之 间 有 一 段 灰色 区 
域 ， 所 以 我 们 需要 界定 无 连接 (connection-less) 这 一 术语 。 特 别 是 无 连接 网 络 过 强 地 假 
定 所 有 数据 报 是 完全 独立 的 。 虽 然 数据 报 独立 地 进行 交换 ， 但 是 在 某 对 特定 的 主机 间 的 数 
据 报 流通 常 要 经 过 一 系列 特定 的 路 由 器 。 所 谓 流 (flow) 是 指 在 源 和 目的 主机 对 之 间 发 送 
的 一 系列 分 组 ， 它 们 沿 相同 的 路 由 经 过 网 络 。 在 资源 分 配 问题 中 ， 流 是 个 十 分 重要 的 抽象 
概念 ， 本 章 将 会 用 到 。 

流 抽象 的 最 大 优势 之 一 是 它 可 以 有 不 同 粒度 的 定义 。 例 如 ， 流 可 以 是 主机 到 主机 的 
( 即 有 相同 的 源 和 目的 地 主机 地 址 )， 或 是 进 
程 到 进程 的 ( 即 有 相同 的 源 和 目的 地 主机 / OS e i 
端口 对 ) 。 在 后 一 种 情况 中 ， 流 与 我 们 在 本 -E3 J 
书 中 一 直 使 用 的 信道 的 概念 基本 上 是 相同 \ 
的 。 我 们 引进 流 这 个 新 术语 是 因为 对 网 络 中 (x) a 
的 路 由 器 而 言 ， 流 是 可 见 的 ， 而 信道 只 是 一 ik y 
个 端 到 端的 抽象 概念 而 已 。 图 6-2 描述 了 多 e (s) 
个 流通 过 一 组 路 由 器 的 过 程 。 

因为 有 多 个 相关 分 组 流 经 过 每 台 路 由 
器 ， 所 以 有 时 为 每 个 流 保 存 一 些 状 态 信 息 是 图 6-2 多 个 流通 过 一 组 路 由 器 
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有 意义 的 ， 可 以 用 这 些 信 息 对 属于 这 个 流 的 分 组 做 资源 分 配 决 定 。 这 些 状 态 有 时 称 为 软 状 
A (soft state) ， 软 状态 和 硬 状 态 的 主要 差别 是 软 状 态 并 不 总 是 需要 用 信和 令 显 式 地 创建 或 
删除 。 纯 粹 的 无 连接 网 络 在 路 由 器 上 不 维护 任何 状态 ， 而 纯粹 的 面向 连接 网 络 在 路 由 器 上 
维护 硬 状态 ， 软 状态 则 处 于 两 者 之 间 。 一 般 情况 下 ， 网络 的 正确 操作 并 不 依赖 于 当前 的 软 
状态 〈 每 个 分 组 不 考虑 软 状态 时 ， 依 然 能 正确 地 路 由 )， 但 是 如 果 路 由 器 正在 维护 某 个 流 
的 软 状 态 信 息 ， 而 某 个 分 组 又 恰好 属于 这 个 流 的 话 ， 那 么 路 由 器 最 好 能 处 理 这 个 分 组 。 

注意 一 个 流 既 可 以 隐 式 地 定义 也 可 以 显 式 地 建立 。 对 于 前 者 ， 路 由 器 检查 每 个 经 过 
的 分 组 的 首部 中 的 地 址 . 若 观测 出 有 相同 的 源 和 目的 地 的 分 组 ， 就 将 这 些 分 组 当 作 属于 同 
一 个 流 来 对 待 ， 以 便 进行 拥塞 控制 。 对 于 后 者 ， 源 在 网 上 发 送 一 个 建立 流 的 报 文 ， 声明 将 
启动 一 个 分 组 流 。 然 而 对 于 显 式 建 立 的 流 和 面向 连接 网 络 中 的 一 个 连接 是 和 否 相 同 ， 还 是 有 
争议 的 。 我 们 之 所 以 提 到 这 一 点 ,是 因为 即使 是 显 式 建立 的 流 也 并 不 意味 着 任何 端 到 端的 
语义 ,尤其 是 它 并 不 意味 着 可 靠 而 有 序 的 虚 电 路 传输 。 它 的 存在 仅仅 是 用 于 资源 分 配 的 目 
的 。 在 本 章 我 们 会 看 到 隐 式 的 流 和 显 式 的 流 。 

3. 服务 模型 

本 鞋 前 面 的 部 分 将 集中 讨论 采用 因特网 尽力 而 为 服务 模型 的 机 制 。 在 尽力 而 为 服务 模 
型 中 .以 完全 相同 的 方式 对 待 每 个 分 组 端 主 机 没有 机 会 要 求 网 络 对 某 个 流 提 供 特 殊 保证 
或 优先 服务 。 定 义 一 个 支持 某 种 优先 服务 或 特殊 保证 的 服务 模型 ， 比 如 保证 视频 数据 流 所 
需 带 宽 ， 将 是 6. 5 节 讨 论 的 主题 。 这 种 服务 模型 能 提供 多 种 服务 质量 (Qualities of Serv- 
ice，QoS)。 正 如 我 们 将 看 到 的 ， 实 际 上 有 一 个 可 能 性 的 范围 ， 这 个 范围 从 纯粹 的 尽力 而 
为 服务 模型 到 保证 每 个 流 能 获得 定量 QoS 的 模型 。 最 大 的 挑战 之 一 就 是 定义 一 种 服务 模 
型 ， 它 可 以 满足 许多 领域 的 应 用 需求 ， 甚 至 能 够 用 于 将 来 创建 的 应 用 。 
6.1.2 分 类 方法 

资源 分 配 机 制 千差万别 ， 进 行 彻底 的 分 类 是 很 难 的 。 下 面 我 们 介绍 可 以 表示 资源 分 配 
机 制 特征 的 三 个 方面 ， 并 在 本 章 中 对 其 更 细微 的 差异 进行 讨论 。 

1. 以 路 由 器 为 中 心 和 以 主机 为 中 心 

资源 分 配 机 制 可 分 为 两 大 类 : 一 类 是 在 网 络 内 部 〈 即 在 路 由 器 或 交换 机 上 ) 解决 问 
题 ， 另 一 类 是 在 网 络 边缘 〈 即 在 主机 上 ， 或 许 是 在 传输 协议 内 ) 解决 问题 。 由 于 网 络 中 的 
路 巾 希 和 网 络 边缘 上 的 主机 均 参 与 资源 分 配 ， 所 以 真正 的 问题 是 哪 一 个 承担 主要 责任 。 

在 以 路 由 器 为 中 心 的 设计 中 ， 由 每 台 路 由 需 决定 什么 时 候 转 发 分 组 、 以 及 选择 丢弃 哪 
些 分 组 ， 同 时 通知 网 上 正在 产生 通信 量 的 主机 允许 它 发 送 的 分 组 数目 。 在 以 主机 为 中 心 的 
设计 中 ， 端 主机 观测 网 络 状态 (如 成 功 通过 网 络 的 分 组 数 )， 并 相应 调整 它们 的 行为 。 注 
意 这 两 类 设计 并 不 是 相互 排斥 的 。 例 如 ， 把 拥塞 管理 的 负担 主要 放 在 路 由 器 上 的 网 络 仍然 
布 望 端 主机 能 支持 路 由 带 发 送 的 建议 报 文 ， 而 使 用 端 到 端 拥塞 控制 的 网 络 中 的 路 由 器 仍然 
用 某 种 策略 (不论 多 么 简单 ) 决定 当 路 由 器 队列 发 生 溢出 时 要 丢弃 哪些 分 组 。 

2. 基于 预定 方式 和 基于 反馈 方式 

有 时 资源 分 配 机 制 也 根据 使 用 预定 (reservation) 还 是 反馈 (feedback) 进行 分 类 。 
在 基于 预定 的 系统 中 ， 一 些 实 体 ( 如 端 主 机 ) 为 流 的 分 配 向 网 络 申 请 一 定 的 容量 。 然 后 每 
台 路 由 器 分 配 足够 的 资源 〈 包 括 缓冲 区 及 链 路 带宽 的 百分比 ) 以 满足 这 一 请 求 。 如 果 某 些 
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路 由 器 由 于 自身 资源 不 足 而 不 能 满足 该 请 求 ， 那 么 路 由 器 会 拒绝 这 个 预定 。 这 就 像 打 电话 
时 遇 到 忙 音 一 样 。 在 基于 反馈 的 系统 中 ， 端 主机 在 未 预定 任何 容量 的 情况 下 开始 发 送 数 
据 ， 然 后 根据 收 到 的 反馈 信息 调整 发 送 速率 。 反 馈 信 息 可 以 是 显 式 的 Cexplicit) ( 即 发 生 
拥塞 的 路 由 器 向 主机 发 送 “ 请 减 慢 速 度 ” 的 消息 )， 或 隐 式 的 (implicit)( 即 端 主 机 根据 外 
部 可 观察 到 的 网 络 行为 (如 分 组 丢失 ) 来 调整 发 送 速 率 )。 

注意 ， 基 于 预定 的 系统 总 是 意味 着 采用 以 路 由 器 为 中 心 的 资源 分 配 机 制 。 这 是 因为 每 
台 路 由 器 都 必须 负责 了 解 它 当前 的 可 用 容 量 并 判断 能 否 接受 新 的 预定 ， 同 时 确信 每 台 主 机 
处 在 它 预 定 的 范围 内 。 i ALR ARSE RAL BD 
塞 时 ,该 主机 的 分 组 就 是 丢弃 的 候选 对 象 。 男 一 方面 ， 基 于 反馈 的 系统 意味 着 既 可 以 采用 
pe ed iA a eee 通常 ， 如 果 反 馈 是 显 式 的 ， 那 

至 少 在 某 种 程度 上 资源 分 配方 案 与 路 由 器 有 关 。 如 果 反 馈 是 隐 式 的 ， 则 几乎 所 有 负担 都 
PERRO, Bit Ar AY AE R EE AE A EIN EA EH 

预定 不 必 由 端 主机 发 出 ， 也 可 由 网 络 管理 员 给 流 或 聚集 流量 分 配 资源 ， 见 6. 5.3 节 . 

3. 基于 窗口 方式 和 基于 速率 方式 

表示 资源 分 配 机 制 特征 的 第 三 种 方法 是 依据 基于 窗口 (window based) HHA Tit # 
(rate based) 。 正 如 上 面 提 到 的 ， 这 只 是 多 个 领域 中 的 一 个 ， 其 中 类 似 的 机 制 和 术语 还 用 
于 流量 控制 和 拥塞 控制 。 流 量 控制 和 资源 分 配 的 机 制 都 需要 一 种 表达 方式 以 向 发 送 方 传达 
允许 其 发 送 的 数据 量 。 传 达 这 一 信息 通常 用 两 种 方法 : lenin hl 
我 们 已 经 见 过 基于 窗口 的 传输 协议 ， 如 TCP， 其 中 接收 方向 发 送 方 通知 一 个 窗口 。 这 个 窗 
口 对 应 于 接收 方 的 缓冲 区 大 小 以 及 对 发 送 方 传输 数据 量 的 限制 ， 就 是 说 ， 它 支持 流量 控 
制 。 一 个 类 似 的 机 制 一 一 窗口 通知 一 一 可 以 用 于 在 网 络 内 预定 缓冲 区 空间 ( 即 它 支持 资源 
分 配 ) 。6. 3 节 描 述 的 TCP 拥塞 控制 机 制 是 基于 窗口 的 。 

也 可 以 用 速率 控制 发 送 方 的 行为 ， 也 就 是 接收 方 或 网 络 每 秒 能 接收 多 少 比 特 。 基 于 速 
率 的 控制 机 制 对 以 某 平均 速率 产生 数据 和 需要 保证 最 小 吞吐 量 的 多 媒体 应 用 程序 往往 是 有 
用 的 。 例 如 ， 在 7. 2. 3 节 中 描述 的 该 类 视频 编 解 码 器 以 1Mbps 的 平均 速率 和 2Mbps 的 峰 
值 速率 产生 视频 。 he 会 看 到 ， 在 支持 不 同 服务 质 量 的 基于 预定 的 系统 中 ， 流 
的 基于 速率 的 特性 是 一 个 合乎 逻辑 的 选择 : 发 送 方 对 每 秒 如 此 多 的 比特 数 做 出 预定 ， 同 时 
路 径 上 的 每 台 eee sx 间 的 情况 下 ， 确 定 是 否 能 支持 这 一 速率 。 

4. 资源 分 配 分 类 小 结 

如 上 所 述 ， 资 源 分 配 有 三 种 分 类 方法 ， 每 种 又 分 为 两 类 ， 共 有 八 种 不 同 的 策略 。 虽然 
这 八 种 方法 都 是 可 能 实现 的 ， 但 我 们 指出 ， 实 际 上 有 两 种 策略 看 起 来 最 为 流行 ， 这 两 种 策 
略 与 网 络 的 基本 服务 模型 有 关 。 

一 方面 ， 尽 力 而 为 服务 模型 不 允许 用 户 预 定 网 络 容量 ， 因 此 它 通常 意味 着 使 用 反馈 方 
式 。 这 就 意味 着 拥塞 控制 的 责任 大 部 分 落 在 端 主机 身上 , 或 许 路 由 器 会 提供 某 些 辅助 。 地 
we ee 
6.4 节 的 中 心 内 容 。 i 

另 一 方面 ， 基 于 服务 质量 的 服务 模型 可 能 包含 某 种 预定 形式 。 对 这 些 预 定 的 支持 主要 
依赖 路 由 器 的 参与 ， 例 如 ， 将 分 组 放 和 不同 的 队列 依赖 于 它们 要 求 的 预定 资源 的 级 别 。 而 
且 ， 由 于 窗口 与 用 户 所 需 的 网 络 带宽 仅 是 间接 相关 ， 自 然 就 宕 要 按 速率 表示 预定 的 资源 ， 
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我 们 将 在 6. 5 节 中 讨论 这 个 问题 。 


6.1.3 评价 标准 


最 后 我 们 讨论 如 何 判断 一 种 资源 分 配 机 制 的 优 劣 。 回 忆 在 本 章 开 头 的 问题 中 我 们 提出 
的 网 络 如 何 有 效 地 和 公平 地 分 配 资源 的 问题 。 也 就 是 说 ， 评 价 一 种 资源 分 配方 案 的 优 劣 至 
少 有 两 大 标准 。 下 面 我 们 依次 考虑 每 一 种 标准 。 

1. 有 效 的 资源 分 配 

评价 网 络 资源 分 配方 案 的 有 效 性 通常 从 考虑 网 络 的 两 个 主要 度量 标准 开始 ， 即 吞吐 量 
和 和 延迟。 显然， 我 们 希望 有 尽 可 能 大 的 吞吐 量 和 尽 可 能 小 的 延迟 。 不 幸 的 是 ， 这 些 目 标 通 
常 相互 对 立 。 对 于 资源 分 配 算法 而 言 ， 增 加 吞吐 量 就 是 要 允许 尽 可 能 多 的 分 组 进入 网 络 ， 
使 所 有 链 路 的 利用 率 趋 近 100% 。 这 样 做 是 为 了 尽量 避免 链 路 空闲 的 可 能 ， 因 为 空闲 的 链 
路 会 降低 吞吐 量 。 这 种 策略 的 问题 在 于 ， 增 加 网 络 中 的 分 组 数 就 要 增加 每 台 路 由 器 队列 的 
长 度 ， 从 而 导致 分 组 在 网 络 中 的 延迟 加 大 。 

为 描述 这 种 关系 ， 一 些 网 络 设计 者 提出 使 用 吞吐 量 和 延迟 的 比值 作为 衡量 资源 分 配方 
案 有 效 性 的 度量 标准 。 这 个 比值 有 时 称 为 网 络 的 能 力 (power)S ; 

Power= Throughput/Delay 

注意 ， 不 能 明显 看 出 能 力 是 判断 资源 分 配 有 效 性 的 恰当 标准 。 原 因 有 两 点 : 第 一 ， 能 
力 这 一 度量 标准 是 基于 M/M/1 排队 网 络 理论 的 , 己 这 一 理论 假设 有 无 限 个 队列 ， 而 实际 网 
络 的 缓冲 区 是 有 限 的 ， 有 时 不 得 不 丢弃 一 些 分 组 。 第 二， 能 力 这 一 度量 标准 的 定义 通常 与 单 
一 连接 Ct) 有 关 ， 如 何 把 它 扩 展 到 多 个 有 竞争 的 连接 还 不 清楚 。 尽 管 有 相当 严格 的 限制 ， 
但 是 到 目前 为 止 还 没有 其 他 的 度量 标准 被 广泛 接受 ， 因 此 现在 仍 在 使 用 能 力 这 一 度量 标准 。 

我 们 的 目标 是 使 这 个 比率 达到 最 大 ， 这 个 比率 是 关于 网 络 负载 的 函数 。 而 负载 是 由 资 
源 分 配 机 制 来 设置 的 。 图 6-3 给 出 了 典型 的 能 力 曲线 ， 理 想 情 况 下 ， 资 源 分 配 机 制 可 以 使 
其 达到 曲线 的 最 高 点 。 如 果 在 最 高 点 的 左 侧 ， 表 明 这 一 机 制 过 于 保守 : 就 是 说 ， 它 允许 发 
送 的 分 组 太 少 ， 未 能 充分 利用 链 路 。 在 最 高 点 的 右 侧 表明 这 一 机 制 允 许 进入 网 络 中 的 分 组 
过 多 ， 以 致 由 排队 导致 的 延迟 的 增加 量 开始 超出 吞吐 量 的 微小 增益 。 

有 趣 的 是 ， 能 力 曲 线 非 常 类 似 分 时 计算 机 系统 的 系 
统 吞吐 量 曲线 。 系 统 吞吐 量 随 进 入 系统 的 作业 数 而 增加 ， 





当 在 系统 中 运行 的 作业 数 达到 某 一 点 时 ， 系 统 性 能 开始 A 
下 降 (系统 花 大 量 的 时 间 进 行内 存 页 面 交 换 ) ， 同 时 系统 = 
吞吐 量 也 开始 下 降 。 i 

在 本 章 后 几 节 中 可 以 看 到 ， 许 多 拥塞 控制 方案 只 能 | = 
很 粗略 地 控制 负载 。 也 就 是 说 ， 它 们 实在 不 可 能 实现 只 RARER oe 
把 “旋钮 ” 转 一 点 并 只 允许 少量 的 额外 分 组 进入 网 络 。 wet omens 
因此 ， 网 络 设计 者 需要 考虑 系统 在 高 负载 下 工作 时 将 会 和 负载 的 函数 关系 





日 ”确切 的 定义 是 Power 二 Throughput*/Delay， 其 中 O<a< 1, a 二 1 时 能 力 取 极 大 值 ， 香 吐 量 的 单位 是 每 秒 的 数 
据 单元 (例如 比特 )， 延 迟 的 单位 是 秒 。 

马 。 因 为 本 书 不 是 针对 排队 理论 的 ， 因 此 仅 给 出 了 M/M/1 排队 的 简要 描述 ，1 表示 有 一 台 服 务 器 ，M 表示 分 组 到 
达 和 服务 时 间 的 分 配 依据 “Markovian”"， 即 指数 方式 ， 
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出 现 的 情况 ， 即 图 6-3 Pop ns He BGA mA a A Tk. ER E FI A E Se F 
RR lad FE ON m (EH HE FE MS FE, MARERE. 我们 布 望 有 一 个 稳定 的 
(stable) 系统 一 一 即使 在 网 络 负 和 载 很 大 的 情况 下 ， 其 中 的 分 组 依然 可 以 在 网 络 中 继续 传 
送 。 如 果 机 制 是 不 稳定 的 ， 网 络 将 可 能 出 现 拥塞 崩溃 (congestion collapse). 

2. 公平 的 资源 分 配 

网 络 资源 的 有 效 利 用 并 不 是 衡量 资源 分 配方 案 的 唯一 标准 ,还 必须 考虑 公平 性 的 问 
题 。 但 是 当 试 图 定义 公平 资源 分 配 的 确切 组 成 时 ， 就 会 陷 人 一 头 筋 水 。 例 如， 基于 预定 的 
资源 分 配方 案 提供 显 式 的 方法 来 产生 可 控制 的 不 公平 性 。 在 这 样 的 方案 中 ， 可 以 使 用 预定 
方式 让 一 个 视频 流 在 某 一 链 路 上 获得 1Mbps 的 吞吐 量 ， 而 同时 让 另 一 个 文件 传输 在 同一 
链 路 上 却 仅 获 得 10kbps 的 吞吐 量 。 

相反 ， 如 果 没 有 显 式 的 信息 ， 当 多 个 流 共 享 某 一 条 链 路 时 ， 布 望 每 一 个 流 都 获得 相等 的 
带宽 份额 。 这 种 定义 假设 带宽 的 公平 (fair) 分 配 就 是 带宽 的 平均 (equal) 分 配 。 然 而 即使 
不 是 预定 方式 ， 平 等 分 配 也 不 等 同 于 公平 分 配 。 我 们 是 和 否 也 应 比较 流 的 路 径 长 度 ” 比 如 ， 如 
6-4 所 示 ，1 个 跳 数 为 4 的 流 和 3 个 跳 数 为 1 的 流 竞 争 时 .如 何 体现 公平 ? 


~ A / ~ ~ SF 
—__{ 2% )—___f $5) __f 3S — <S —* 
~ ~ — ae 


a all 


7 f y 
图 6-4 1 个 跳 数 为 4 的 流 和 3 个 跳 数 为 1 的 流 的 竞争 


假设 公平 就 意味 着 平等 ， 而 且 所 有 路 径 有 相同 的 长 度 ， 网 络 研究 员 Raj Jain 提出 了 一 
种 评价 拥塞 控制 机 制 公平 性 的 度量 标准 ， 他 的 公平 指数 定义 如 下 。 给 定 一 个 流 吞吐 量 的 集 
E Cais rs s an) (使 用 统一 的 单位 ， 如 b/s). 下列 函数 定义 这 些 流 的 公平 性 指数 : 


i=l 
公平 性 指数 总 是 产生 0 一 1 之 间 的 一 个 数 ，1 表示 最 公平 。 为 了 更 直观 地 了 解 这 一 度量 标 
准 ， 考 虑 n 个 流 都 获得 每 秒 1 个 单位 数据 吞吐 量 的 情况 。 它 的 公平 性 指数 为 
n” 
nXn = 

现在 假设 有 一 个 流 获得 了 1 十 A 的 吞吐 量 ， 则 公平 性 指数 为 

((72 一 1) 十 1 十 A)2 — vn? +2nA+ 4? 

zw 一 十 人 1 十 AD n? + 2nA + nA? 
注意 ， 分 母 比分 子 大 (na. AERE A ii hy E k d ke Hb ii hy T E t K E E h 
( 正 的 或 负 的 A)， 公 平 性 指数 都 降 到 1 以 下 了 。 另 一 种 简单 的 情况 是 考虑 个 流 中 只 有 
个 流 有 相等 的 吞吐 量 ， 而 其 余 n 一 k 个 流 的 吞吐 量 为 0， 那 么 公平 性 指数 降 为 k/n。 


6.2 排队 规则 ” 
无 论 资源 分 配 机 制 的 其 余部 分 是 简单 还 是 复杂 ， 每 台 路 由 器 都 必须 应 用 某 种 排队 规则 来 











参见 “实验 十 一 ”。 
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决定 如 何 缓存 等 待 发 送 的 分 组 。 可 以 把 排队 算法 想象 为 分 配 带宽 〈 哪 些 分 组 被 传送 ) 和 分 配 
缓冲 区 (哪些 分 组 被 丢弃 )。 它 通过 确定 分 组 等 待 传输 的 时 间 直 接 影响 分 组 的 延迟 。 本 节 介 
绍 两 种 常用 的 排队 算法 FIFO (先进 先 出 ) 和 FQ (公平 排队 ) 法 ， 以 及 几 个 变种 算法 。 


6.2.1 FIFO 


FIFO (先进 先 出 ) 排队 也 称 为 先 来 先 服务 (FCFS) 排队 ， 它 的 思想 很 简单 : 先 到 达 
路 由 器 的 分 组 先 被 发 送 。 图 6- 5a 所 示 为 一 到 达 的 下 一 个 空闲 ”要 传输 的 
wie “HHO” A FIFO 队列 ， 最 多 可 容纳 8 ”分 组 缓冲 区 ”下 一 个 分 组 


个 分 组 。 假 设 每 台 路 由 器 中 缓冲 区 的 空间 ho 
J r T ; ' 

ld j 

a ae 





是 有 限 的 ， 当 有 分 组 到 达 而 队列 〈 缓 冲 区 ) | 站 
已 满 时 ， 路 由 器 将 丢弃 这 个 分 组 ， 如 图 6- Tanis 
Sb 所 示 。 这 种 做 法 不 会 考虑 这 个 分 组 属于 
哪个 流 ， 也 不 考虑 它 有 多 重要 。 由 于 到 达 DRENE ARKAN 
FIFO 队 尾 的 分 组 被 丢弃 ， 所 以 有 时 也 称 为 a) FIFO 队 列 
队 尾 丢弃 (tail drop), 要 传输 的 

注意 ， 队 尾 丢弃 与 FIFO 是 两 个 不 同 到 的 分 组 ee 
的 概念 。FIFO 是 调度 规则 (scheduling ` oo mA 
discipline)， 它 决定 分 组 传送 的 顺序 。 队 尾 | |、 | | | | | | | i 
EF EEF RB (drop policy), ER eM LN -L a 
个 分 组 被 丢弃 。 因 为 FIFO 和 队 尾 丢弃 分 
别 是 最 简单 的 调度 规则 和 丢弃 策略 ， 因 此 
有 时 它们 被 看 成 一 种 组 合 排队 实现 。 不 幸 图 6s 
的 是 ， 这 一 组 合 常常 被 简单 地 称 作 FIFO 排队 (FIFO queuing), XBR E 
为 带 队 尾 丢 弃 的 FIFO (FIFO with tail drop), 6.4 节 提 供 了 其 他 丢弃 策略 的 一 个 例子 
采用 比 “是 否 有 空 缓冲 区 ?” 更 复杂 的 算法 决定 何 时 丢弃 分 组 。 这 种 丢弃 策略 可 以 与 i 
或 更 复杂 的 调度 规则 一 起 使 用 。 

带 队 尾 丢 弃 的 FIFO 作为 所 有 排队 算法 中 最 简单 的 算法 ， 在 本 书写 作 时 是 因特网 路 由 
器 中 使 用 最 广泛 的 算法 。 这 种 简单 的 排队 方法 将 拥塞 控制 和 资源 分 配 的 所 有 责任 推 到 网 络 
的 边缘 。 这 样 ， 就 假设 日 前 因特网 中 流行 的 拥塞 控制 方式 不 能 从 路 由 器 获得 任何 帮助 : 
TCP 负责 检测 和 处 理 拥塞 。 我 们 将 在 6. 3 节 中 看 到 它 是 如 何 运作 的 。 

基本 FIFO 排队 的 一 个 简单 变种 是 优先 排队 。 它 的 思想 是 给 每 个 分 组 一 个 优先 级 标 
志 ， 这 个 标志 可 以 被 传送 到 如 6. 5. 3 节 描 述 的 IP 首部 中 。 路 由 器 然后 采用 多 个 FIFO BA 
列 ， 每 个 队列 对 应 一 个 优先 级 。 路 由 器 总 是 先 发 送 完 非 空 的 最 高 优先 级 队列 中 的 分 组 ， 然 
后 再 移 到 下 一 个 优先 级 队列 。 在 每 个 优先 级 队列 中 ， 分 组 都 采用 FIFO 方式 管理 。 这 种 方 
式 与 尽力 而 为 传送 模型 有 一 点 不 同 ， 但 它 还 没有 优化 到 对 任意 特定 的 优先 级 提供 保证 。 它 
仅 允 许 高 优先 级 的 分 组 插 在 队列 的 前 面 。 

当然 ， 优先 排队 的 问题 是 高 优先 级 队列 可 能 使 其 他 所 有 队列 ， RIR”. EMEK, H 
要 在 高 优先 级 队列 中 有 一 个 高 优先 级 分 组 要 发 送 ， 那 么 低 优 先 级 队列 就 不 能 获得 服务 。 要 
想 让 它 成 为 可 行 的 ， 必 须 对 插 人 高 优先 级 队列 中 的 高 优先 级 通信 量 进行 严格 的 限制 。 显 
然 ， 我 们 不 能 允许 用 户 不 受 限 制 地 将 其 分 组 设置 为 高 优先 级 ， 必 须 防 止 他 们 一 起 这 样 做 ， 














b) FIFO 队 列 中 的 队 尾 丢 弃 
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ay He EE BP SOR HE AP BOR REA, AR, 我 们 可 以 用 经 济 手段 来 实现 : 传送 
分 组 的 优先 级 越 高 ， 网 络 费 用 就 越 高 。 但 是 在 像 因 特 网 这 样 分 散 化 的 环境 中 .实现 这 样 的 
方案 还 有 很 多 问题 。 

在 因特网 中 ， 使 用 优先 级 排队 的 一 种 情况 是 为 了 保护 那些 最 重要 的 分 组 通常 指 在 
网 络 拓扑 结构 改变 后 为 保证 路 由 表 的 稳定 性 所 必需 的 路 由 更 新 分 组 。 对 于 这 样 的 分 组 ， 常 
常 有 一 个 特殊 队列 ， 它 可 以 由 IP 首部 中 的 差分 服务 代码 点 (Differentiated Services Code 
Point, DSCP) 以 前 的 TOS 字段 标识 。 事实 上 ， 这 是 6. 5. 3 市 中 讲述 的 “区 分 服务 ”思想 
的 一 个 简单 例子 。 


6.2.2 公平 排队 

FIFO 排队 的 一 个 主要 问题 是 不 能 区 分 不 同 的 通信 源 ， 按 前 几 节 中 的 说 法 ， 就 是 它 不 
能 按 分 组 所 属 的 流 分 离 它们 。 这 个 问题 有 两 个 不 同 的 层面 。 一 个 层面 是 不 能 确定 任何 一 个 
完全 在 源 上 实现 的 拥塞 控制 算法 都 能 在 路 由 器 几乎 不 提供 帮助 的 情况 下 控制 拥塞 。 我 们 暂 
时 停止 对 这 一 点 的 判断 ， 留 到 下 一 节 讨 论 TCP 拥塞 控制 时 再 讨论 。 另 一 个 层面 ， 因 为 整 
个 拥塞 控制 机 制 在 源 上 实现 ， 而且 FIFO 排队 不 提供 监视 这 些 源 是 否 遵循 这 一 机 制 的 手 
县 ， 因 此 一 些 恶意 操作 的 源 〈 流 ) 就 可 能 占用 网 络 任意 多 的 容量 。 我 们 再 来 考虑 因特网 . 
某 个 给 定 的 应 用 程序 完全 可 以 不 用 TCP， 从 而 就 能 绕 过 端 到 端 拥塞 控制 机 制 。( 像 当今 因 
特 网 电话 这 样 的 应 用 程序 就 是 这 么 做 的 .) 这 样 的 应 用 程序 能 够 以 其 分 组 无 限制 地 充斥 路 
由 器 ， 从 而 使 其 他 应 用 程序 的 分 组 被 丢弃 。 

公平 排队 (FQ) 是 为 解决 这 一 问题 而 提出 的 算法 。 其 Ww | P 
思想 是 为 路 由 器 当前 处 理 的 每 个 流 维护 一 个 独立 的 队列 . 路 一 \ 
由 器 以 轮转 方式 为 这 些 队 列 服务 ， 如 图 6-6 所 示 。 当 某 个 流 ga TT / 
发 送 分 组 过 快 时 ， 它 的 队列 被 十 满 。 当 队列 达到 某 一 长 度 一 | 轮转 
时 ,属于 这 个 流 队 列 的 多 余 分 组 就 被 丢弃 。 用 这 种 方式 , 一 p T 
个 源 就 不 能 以 牺牲 其 他 流 为 代价 任意 增加 它 占 用 的 网 络 能 力 一 一 人 J 
的 份额 。 se TT ae 

注意 ，FQ 既 不 涉及 路 由 器 将 其 状态 通知 通信 源 ， 也 不 “一 一 上 
以 任何 方式 限制 给 定 源 传 送 分 组 的 速率 。 换 言 之 ，FQ 依然 图 6-6 一 台 路 由 器 上 
与 端 到 端 拥塞 控制 协同 使 用 。 它 简单 地 隔离 各 通信 以 使 恶意 4 个 流 的 轮转 服务 
的 通信 源 不 会 影响 那些 忠实 执行 端 到 端 算法 的 源 。 对 于 在 良好 拥塞 控制 算法 管理 下 的 流 的 
合 ，FQ 也 对 它们 施加 公平 性 。 

尽管 基本 概念 很 简单 ， 但 你 仍 需 了 解 相当 多 的 细节 。 问 题 的 复杂 性 主要 在 于 路 由 器 处 
理 的 分 组 长 度 不 一 定 相同 。 要 真正 以 公平 的 方式 分 配 输出 链 路 的 带宽 ， 就 有 必要 考虑 分 组 
的 长 度 。 例如， 路 由 器 正在 管理 两 个 流 ， 一 个 流 有 1 000 字 节 的 分 组 ， 另 一 个 流 有 500 F 
节 的 分 组 (或 许 由 于 来 自 这 台 路 由 器 上 游 的 分 段 )， 那 么 对 每 个 流 队 列 的 分 组 进行 的 轮转 
服务 将 把 链 路 带宽 的 2/3 分 给 第 一 个 流 ， 而 分 给 第 二 个 流 的 仅 是 链 路 带宽 的 1/3。 

我 们 真正 想 实现 的 是 按 位 轮转 ， 也 就 是 路 由 器 从 流 1 传送 1 位 ， 再 从 流 2 传送 1 位 ， 
以 此 类 推 。 显然， 从 不 同 的 分 组 中 按 位 交叉 传送 是 不 可 行 的 。 因 此 FQ 机 制 采用 如 下 方法 
来 模拟 这 一 行为 ， 先 判断 对 于 按 位 轮转 方式 发 送 的 分 组 何 时 传送 完毕 ， 然 后 根据 完成 时 间 
对 要 传送 的 分 组 进行 排序 。 
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为 了 理解 近似 按 位 轮转 的 算法 ， 考 虑 单个 流 的 行为 并 设想 一 个 时 钟 ， 每 当 所 有 活动 流 
都 传送 1 位 时 ,时 钟 滴答 1 次 。( 流 是 活动 的 是 指 它 有 数据 在 队列 中 。〉 对 于 这 个 流 ， 用 P: 
表示 分 组 i 的 长 度 ， 用 S; 表示 路 由 器 发 送 分 组 i 的 起 始 时 间 ， 用 F 表示 路 由 器 发 送 分 组 : 
的 结束 时 间 。 如 果 用 已 表示 发 送 分 组 i 所 用 的 时 钟 滴答 数 ( 记 住 流 每 传 1 位 ， 时 钟 滴答 
数 加 1)， 那 么 容易 看 出 Fi 二 Si 十 P;。 

何 时 开始 传送 分 组 i 呢 ? 这 取决 于 分 组 i 是 在 路 由 器 传 完 这 个 流 的 第 i 一 1 个 分 组 之 前 
到 达 还 是 之 后 到 达 。 如 果 是 之 前 到 达 ,， DWAR bore i 的 第 1 位 将 在 分 组 i 一 1 的 最 后 1 
位 发 完 后 立即 发 送 。 另 一 种 情况 ， 可 能 当 路 由 器 发 完 第 ;一 1 个 分 组 很 久之 后 第 i 个 分 组 才 
到 达 ， 也 就 是 说 在 一 段 时 间 里 这 个 流 的 队列 是 空 的 ， 这 时 轮转 技术 将 不 从 这 个 流传 送 任何 
分 组 。 若 用 Ai 表示 分 组 ;到达 路 由 器 的 时 间 ,， 那么 S; 二 max(Fi-1,A;)， 于 是 我 们 可 以 
计算 

F; =max(F,—; .A;) +P; 
现在 来 讨论 多 个 流 的 情况 .同时 我 们 发 现 确定 A; 的 一 个 要 领 。 在 分 组 到 达 时 ， 我 们 不 可 
能 正好 读 出 墙 上 的 时 钟 。 正 如 上 面 提 到 的 ， 我 们 希望 按 位 轮转 时 ， 每 当 所 有 活动 流 都 传送 
1 位 时 ， 时 钟 加 1 个 滴答 ， 因 此 需要 时 钟 在 流 越 多 时 增加 的 速度 越 慢 。 尤 其 是 ， 如 果 有 n 
个 活动 流 ， 那 么 每 当 传送 n 个 比特 时 ,时钟 就 必须 加 1 个 滴答 。 这 样 的 时 钟 将 用 于 计 
算 Ais 

现在 ， 用 上 面 的 公式 来 计算 每 个 流 中 到 达 的 每 个 分 组 的 F;。 人 然后 把 所 有 Fi 当 作 时 间 
戳 ， 而 下 一 个 被 传送 的 分 组 总 是 时 间 戳 值 最 小 的 那个 分 组 一 一 基于 上 述 原 因 ， 该 分 组 应 最 
先 被 传送 完 。 

注意 这 表明 一 个 流 可 能 有 一 个 分 组 到 达 ， 同 时 因为 它 比 一 个 已 经 在 队列 中 等 待 发 送 的 
其 他 流 的 分 组 更 短 ， 所 以 它 可 能 被 插 在 队列 中 比 它 长 的 分 组 前 面 。 然 而 并 不 意味 着 新 到 的 
分 组 能 抢先 当前 正在 传送 的 分 组 。 由 于 没有 这 种 抢先 机 制 ， 如 上 所 述 的 FQ 的 实现 方法 不 
能 精确 地 模拟 试图 达到 的 近似 按 位 轮转 技术 。 

为 了 更 好 地 理解 公平 排队 的 实现 是 如 何 工 作 的 ,我 们 来 看 图 6-7 给 出 的 例子 。 在 
图 6-7a 中 显示 了 两 个 流 的 队列 ， 算 法 在 流 2 队列 之 前 从 流 1 中 选择 两 个 被 传送 的 分 组 。 
在 图 6-7b 中 ， 当 流 1 的 分 组 到 达 时 ， 路 由 咒 已 经 开始 发 送 流 2 的 分 组 。 如 果 采 用 完全 的 
按 位 发 送 公平 排 了 从， 虽然 流 1 的 分 组 在 流 2 发 完 之 前 到 达 ， 但 在 实现 时 流 1 的 分 组 不 能 抢 
先 于 流 2 的 分 组 发 送 。 

流 1 流 2 
( 到达 中 ) (传输 中 ) 输出 


a) 具有 较 早 完成 时 间 的 分 组 首先 被 发 送 b) 发 送 中 的 分 组 发 送 完 





图 6-7 实现 公平 排队 的 例子 


在 公平 排队 中 有 两 个 问题 需 注意 。 第 一 ， 只 要 队列 中 至 少 有 一 个 分 组 ， 链 路 就 绝 不 空 
闲 。 任 何 具 有 这 一 特点 的 排队 方案 称 作 工作 保持 (work-conserving) 方案 。 工 作 保 持 产生 
的 效果 之 一 就 是 : 如 果 我 的 流 与 其 他 流 共享 一 条 链 路 ， 而 其 他 流 此 时 不 发 送 任 何 数 据 ， 那 
么 我 的 流 就 可 以 使 用 全 部 链 路 能 力 。 然 而 ,一旦 其 他 的 流 开始 发 送 数 据 ， 它 们 将 会 使 用 自 
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己 的 那 一 份 链 路 能 力 ， 而 我 的 流 可 获得 的 能 力 将 下 降 。 

第 二 ， 当 链 路 满 负荷 且 有 个 流 在 发 送 数 据 时 ， 我 所 使 用 的 能 力 不 能 超过 链 路 带宽 的 
1/n。 如 果 我 试图 超越 这 一 界限 ， 那 么 我 的 分 组 将 会 被 赋予 更 大 的 时 间 枚 值 ， 使 它们 为 了 
等 待 传 送 而 在 队列 里 等 更 长 的 时 间 。 最 终 队列 会 溢出， 但 究竟 是 我 的 分 组 还 是 别人 的 分 组 
被 丢弃 不 是 由 我 们 正在 使 用 的 公平 排队 决定 的 。 这 是 由 丢弃 策略 决定 的 ，FQ 是 一 个 调度 
Si. Al FIFO 一样 ， 它 可 以 和 任何 丢弃 策略 结合 。 

因为 FQ 是 工作 保持 的 ， 所 以 一 个 流 不 用 的 带宽 可 自动 地 被 其 他 任何 流 使 用 。 例 如 、 
如 果 有 4 个 流 正 在 通过 路 由 器 ， 并 且 都 是 发 送 分 组 ， 那么 每 个 流 能 获得 带宽 的 1/4。. 但 是 
如 果 它 们 中 有 1 个 流 已 空 表 了 足够 的 时 间 ， 它 的 所 有 分 组 都 被 送出 路 由 需 的 队列 ， 那 么 可 
用 带宽 将 被 其 余 的 3 个 流 共享 ， 于 是 每 个 流 都 会 获得 带宽 的 1/3。 这 样 就 可 以 认为 FQ 给 
每 个 流 提供 的 是 有 保证 的 最 小 份额 ， 如 果 有 的 流 不 用 它们 的 份额 ， 别 的 流 就 可 获得 比 它 的 
保证 多 的 带宽 。 

可 以 实现 FQ 的 一 个 变种 称 为 加 权 公 平 排队 (weighted fair queuing. WFQ)， 它 允许 
为 每 个 流 〈 队 列 ) 指定 一 个 权 值 。 这 个 权 值 多 辑 上 用 来 措 述 路 由 器 为 该 队列 服务 1 次 所 传 
送 的 比特 数 ， 它 可 以 有 效 地 控制 流 可 获得 的 链 路 带宽 的 百分比 。 简单 的 FQ 给 每 个 队列 赋 
权 值 1]， 这 意味 着 逻辑 上 每 轮转 1 次 为 每 个 队列 发 送 1 位 。 当 及 n 个 流 时 ， 这 导致 每 个 流 
获得 带宽 的 1/n。 但 是 在 WFQ 中 ,第 一 个 队列 的 权 值 可 以 是 2， 第 二 个 队列 的 权 值 可 以 是 
1， 而 第 三 个 队列 的 权 值 可 以 是 3。 假设 每 个 队列 总 是 有 分 组 等 待 发 送 ， 那么 第 一 个 流 获得 
可 用 带宽 的 1/3， 第 二 个 流 获得 可 用 带宽 的 1/16， 而 第 三 个 流 获 得 可 用 带宽 的 1/2. 

虽然 我 们 已 经 用 流 描述 了 WwWFQ， 但 要 注意 它 可 以 按 通信 量 的 类 别 (class) 实现 . 其 
中 类 别 用 其 他 方法 定义 ， 不 同 于 在 本 章 开 始 介绍 的 简单 的 流 。 例 如 ， 可 以 使 用 IP 首部 中 
的 某 些 字段 标识 类 别 ， 并 给 每 一 类 分 配 一 个 队列 和 权 值 。 这 正 是 6. 5.3 节 中 描述 的 区 分 服 
务 体系 结构 的 一 部 分 。 

注意 ， 执 行 WFQ 的 路 由 器 必须 从 某 处 获得 每 个 队列 指定 的 权 值 ， 或 者 通过 手工 配 
置 , 或 者 通过 这 些 源 的 某 种 信 令 来 获得 。 在 后 一 种 情况 下 .我 们 转向 于 基于 预定 的 模型 . 
仅 给 队列 指定 一 个 权 值 的 方式 提供 一 种 弱 的 预定 形式 ， 因 为 这 些 权 值 只 和 流 获 得 的 带宽 间 
PEAK. (例如 ， 流 可 获得 的 带宽 还 依赖 于 有 多 少 流 和 它 共 享 链 路 ) 。 我 们 将 在 6. 5. 2 节 中 
看 到 如 何 使 用 WFQ 作为 基于 预定 的 资源 分 配 机 制 的 组 成 部 分 。 

结论 ”最 后 我 们 可 以 看 到 ， 整 个 队列 管理 的 讨论 说 明了 一 个 称 为 策略 和 机 制 分 离 

(separating policy and mechanism) 的 重要 系统 设计 原则 。 其 思想 是 把 每 一 种 机 

制 看 作 一 个 黑箱 ， 它 提供 可 由 一 组 旋钮 控制 的 多 层面 服务 。 策 略 规定 这 些 旋钮 的 

一 组 特定 设置 ， 但 它 并 不 知道 (或 不 关心 ) 黑箱 如 何 实现 。 这 种 情况 下 讨论 的 机 

制 是 排队 规则 ， 而 策略 是 哪个 流 获得 何 种 级 别 服务 的 特殊 设置 (如 优先 级 或 权 

值 )。 我 们 将 在 6.5 节 讨 论 WFQ 机 制 可 能 使 用 的 一 些 策略 。 


6. 3 TCP 拥塞 控制 

本 节 讲 述 当今 用 于 端 到 端 拥塞 控制 的 主要 实例 ， 它 是 通过 TCP 实现 的 。TCP 的 基本 
策略 是 把 分 组 发 送 到 没有 预定 的 网 络 上 ， 然 后 对 出 现 的 可 观察 事件 做 出 反应 。TCP 假设 
网 络 路 由 器 只 支持 FIFO 排队 ， 但 用 公平 排队 也 能 工作 。 

TCP 拥塞 控制 是 在 20 世纪 80 年 代 后 期 由 Van Jacobson 引入 因特网 的 ， 大 约 是 在 
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TCP/IP 协议 栈 已 经 实施 8 年 之 后 。 在 此 之 前 ， 因 特 网 正 遭 受 拥 塞 崩溃 的 困扰 一 一 主机 按 
通知 窗口 允许 的 速度 向 因特网 发 送 分 组 ， 在 一 些 路 由 器 上 会 发 生 拥 塞 〈 使 一 些 分 组 被 丢 
弃 )， 同时 主机 会 因 超 时 而 重 传 分 组 ， 引 起 更 严重 的 拥 窒 。 

一 般 而 言 ，TCP 拥塞 控制 的 概念 是 为 每 个 源 确定 网 络 中 有 多 少 可 用 能 力 ， 从 而 知道 
它 可 以 安全 完成 传送 的 分 组 数 。 一 旦 某 个 源 有 这 么 多 分 组 在 传送 、 它 用 确认 CACK) 信号 
的 到 达 表 明 它 的 一 个 分 组 已 经 离开 网 络 ， 因 而 它 不 用 增加 拥塞 级 别 就 可 以 安全 地 向 网 络 插 
入 一 个 新 的 分 组 。 通 过 使 用 确认 信息 测定 分 组 的 传送 ， 人 们 称 TCP 是 自 同 步 (self-clock- 
ing) AY. 当然 ,在 一 开始 就 确定 可 获得 的 能 力 并 非 易 事 。 因 为 其 他 连接 时 连 时 断 ， 可 获 
得 的 带宽 不 断 随时 间 变 化 . 这 意味 着 任何 指定 的 源 必 须 能 调整 传送 分 组 的 数目 ， 这 使 问题 
更 加 复杂 。 本 节 描 述 TCP 解决 这 些 问题 以 及 其 他 问题 所 使 用 的 算法 。 

注意 . 虽然 我 们 一 次 描述 TCP 拥塞 控制 的 一 种 机 制 ， 从 而 给 人 一 种 印象 ， 好 像 我 们 
在 谈论 三 个 独立 的 机 制 ， 但 只 有 将 它们 作为 一 个 整体 考虑 时 才 有 TCP 拥塞 控制 。 此 外 ， 
虽然 我 们 要 从 称 为 标准 TCP (standard TCP) 拥塞 控制 的 变种 说 起 ， 但 我 们 将 看 到 相当 多 
的 变种 都 在 使 用 当中 、， 和 研究 人 员 不 断 探 索 新 的 方法 来 解决 这 一 问题 。 稍 后 讨论 其 中 一 些 新 
的 方法 


6.3.1 加 性 增 / 乘 性 减 
TCP 为 每 个 连接 维护 一 个 新 的 状态 变量 ， 称 为 CongestionWindow (拥塞 窗口 ) ， 源 用 
它 来 限制 给 定时 间 内 允许 传送 的 数据 量 。 拥塞 控制 窗口 与 流量 控制 的 通知 窗口 相对 应 。 
TCP 做 如 下 修改 : 允许 未 确认 数据 的 最 大 字 节 数 为 当前 拥塞 窗口 和 通知 窗口 的 最 小 值 。 
这 样 。 用 5.2.4 市 中 定义 的 变量 ， 对 TCP 的 有 效 窗 口 修 订 如 下 : 
MaxWindow = MIN(CongestionWindow. Advertised Window) 





EffectiveWindow = MaxWindow— (LastByteSent — LastByteAcked) 

也 就 是 说 ， 存 EffectiveWindow 的 计算 中 用 MaxWindow 代替 AdvertisedWindow。 这 样 ， 
允许 TCP 源 发 送 分 组 的 速率 不 超过 网 络 或 目标 主机 可 接受 的 速率 中 的 最 小 值 。 

当然 ,问题 是 TCP 如 何 得 到 一 个 合适 的 Congestion Window 的 值 。 与 AdvertisedWin- 
dow 不 同 ，AdvertisedWindow 的 值 是 由 连接 的 接收 方 送出 的 ， 没 有 任何 一 个 源 向 TCP 的 
发 送 方 发 送 一 个 合适 的 CongestionWindow 值 。 答 案 是 TCP 源 根据 它 所 获得 的 网 络 中 存在 
的 拥塞 级 别 来 设 定 CongestionWindow。 当 拥塞 级 别 上 升 时 减 小 拥塞 窗口 ， 而 当 拥 塞 级 别 
下 降 时 加 大 拥塞 窗口 。 这 种 把 两 者 合 在 一 起 的 机 制 通 常 称 为 加 性 增 / 乘 性 减 (additive in- 
crease/multiplicative decrease, AIMD)， 在 下 面 的 讨论 中 ,会 明白 用 这 样 一 个 抛 口 的 名 字 
的 原因 。 

邢 么 ， 关 键 问 题 是 源 如 何 确 定 网 络 拥 塞 并 且 如 何 减 小 拥 罕 窗口? 答案 是 基于 这 样 的 观 
察 ， 分 组 不 能 被 传送 和 导致 超时 的 主要 诛 央 在 于 拥塞 造成 分 组 被 亚 弃 。 因 为 传输 错误 而 造 
成 丢弃 分 组 的 情况 是 很 少 的 。 因 此 ，TCP 认为 超时 是 发 生 拥塞 的 标志 ， 并 据 此 降低 正在 
传输 的 速率 。 需 要 说 明 的 是 ， 每 发 生 一 次 超时 ， 源 就 将 CongestionWindow 设 为 当前 值 的 
一 半 ， 这 种 对 于 每 次 超时 将 Congestion Window 值 减 半 的 做 法 正 是 对 应 于 该 AIMD 机 制 中 
所 指 的 “ 乘 性 减 ”， 

尽管 CongestionWindow 蚌 按 学 节 定义 的 ， 但 如 果 按 整个 分 组 来 考虑 成 倍 减少 是 最 容 
史 理解 的 。 例 如 ， 假 设 当 前 CongestionWindow 被 设 为 16 个 分 组 。 若 检测 到 一 个 分 组 丢 
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KR, CongestionWindow 就 被 设置 为 8。( 通 常 ， 发 生 超 时 就 是 检测 到 分 组 丢失 ,但 在 下 面 
将 会 看 到 ，TCP 还 有 检测 丢弃 分 组 的 其 他 机 制 .， 如 果 检 测 到 另外 的 分 组 丢失 ,Conges- 
tionWindow 的 值 将 减 到 4， 然 后 就 减少 到 2， 直 到 减 至 一 个 分 组 的 长 度 。 不 允许 Conges 
tionWindow 低 于 一 个 分 组 的 长 度 ， 在 TCP 术语 中 ， 一 个 分 组 的 长 度 称 为 最 大 报 文 段 长度 


(Maximum Segment Size, MSS). 源 目的 地 
只 减 小 窗口 大 小 的 拥塞 控制 策略 显然 过 于 保守 ， 同 时 也 再 oo 
要 能 增 大 CongestionWindow 以 充分 利用 网 络 新 增 的 能 力 。 这 Sa 


就 是 机 制 中 谈 到 的 “加 性 增 ” 部 分 ， 它 的 工作 原理 如 下 : 每 当 
源 成 功 地 发 送 CongestionWindow 设 定 的 分 组 数 一 一 也 就 是 说 ， 
每 个 发 出 的 分 组 都 在 最 近 的 往返 时 间 CRTT) 时 间 内 获得 确 
认 ， 源 就 将 等 于 一 个 分 组 长 度 的 值 加 到 CongestionWindow 上 ， 
这 种 线性 增加 的 过 程 如 图 6-8 所 示 。 注 意 ， 在 实际 应 用 中 TCP 
不 会 等 待 整个 窗口 的 确认 值 收 到 之 后 才 给 拥塞 窗口 增加 一 个 分 
组 的 值 ， 而 是 随 着 到 达 的 每 一 个 确认 增加 一 个 小 的 值 。 具 体 地 
讲 ， 每 次 收 到 一 个 确认 后 ， 拥 塞 窗 口 按 如 下 公式 增加 : 
Increment = MSS X (MSS/Congestion Window) 
CongestionWindow+ = Increment 
也 就 是 说 ， 不 是 在 每 个 RTT 内 将 CongestionWindow 增加 整个 
MSS 值 ， 而 是 每 收 到 一 个 ACK, CongestionWindow 就 增加 
MSS 值 的 一 部 分 。 假 设 每 个 ACK 确认 收 到 MSS 字 节 ， 那 么 
MSS 值 的 这 一 部 分 等 于 MSS/Congestion Window. : 
连续 增加 或 减少 拥塞 窗口 的 模式 将 贯穿 连接 的 生命 期 。 事 。 图 68 在 加 性 增 期 间 传输 
实 上 ， 如 果 用 CongestionWindow 作为 时 间 的 函数 面 出 当前 的 。 的 分 组 ， ET RTT 
值 ， 将 得 到 如 图 6-9 所 示 的 锯齿 型 图 案 。 理 解 有 关 加 性 增 / 乘 i ee 
性 减 的 重要 概念 是 : 源 减 小 它 的 拥塞 窗口 的 速度 比 加 大 这 个 窗口 要 快 得 多 。 这 与 加 性 增 / 
加 性 减 策略 形成 鲜明 对 比 ， 后 一 种 策略 是 指 每 收 到 一 个 ACK， 窗 口 值 增 加 1 个 分 组 ， 同 
时 每 发 生 一 次 超时 ， 窗 口 值 减少 1 个 分 组 。 事 实证 明 加 性 增 / 乘 性 减 是 拥塞 控制 机 制 达 到 
稳定 的 一 个 必要 条 件 〈 参 考 “ 扩 展 阅读 ”") 。 大 幅度 减少 窗口 与 谨慎 增加 窗口 的 一 个 直观 原 
因 是 ， 窗 口 过 大 的 后 果 要 比 窗口 过 小 严重 得 多 。 例 如 ， 当 窗口 过 大 时 ， 被 丢弃 的 分 组 要 被 
重 传 ， 导 致 拥塞 更 加 严重 ， 因 而 迅速 从 这 种 状态 中 摆脱 出 来 非常 重要 。 














T T T T T T T Ša 1 
2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0 
时 间 (E) 


图 6-9 典型 的 TCP 锯齿 图 案 


最 后 ， 由 于 超时 是 拥塞 发 生 的 标志 ， 并 触发 窗口 大 小 的 成 倍 减 少 ， 所 以 TCP 需要 提 
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供 最 精确 的 超时 机 制 。TCP 的 超时 机 制 在 5. 2.6 节 中 已 谈 到 ， 在 此 不 再 重复 。 但 要 记 住 该 
机 制 的 两 个 要 点 : 中 超时 值 被 设置 为 平均 RTT 和 该 平均 值 的 标准 偏差 值 的 一 个 函数 。 
@@ 由 于 用 精确 时 钟 测量 每 次 传输 的 开销 太 大 ， 因 此 TCP 只 用 粗 粒 度 (500 ms) 时 钟 在 每 
个 RTT (而 不 是 每 发 一 个 分 组 ) 对 往返 时 间 进 行 一 次 采样 。 


相关 主题 

丢 包 不 等 于 拥塞 : 无 线 网 络 中 的 TCP 

TCP 拥塞 控制 有 一 种 严重 的 失败 倾向 。 当 链 路 因 位 错误 产生 高 频率 的 丢 包 时 ，TCP 
误 认 为 这 是 拥塞 的 信号 ， 这 种 现象 在 无 线 链 路 上 非常 常见 。 结 果 是 TCP 发 送 端 降低 其 发 
送 速 率 ， 但 对 位 错误 率 没 有 影响 ， 所 以 这 种 丢 包 情况 会 延续 到 发 送 端 窗口 只 剩 一 个 分 组 为 
止 。 这 时 ，TCP 的 吞吐 量 会 降低 到 每 个 往返 时 间 一 个 分 组 ， 这 远 远 小 于 无 拥塞 的 网 络 中 
的 正常 速率 。 

鉴于 这 种 情况 ， 你 可 能 想 知道 TCP 如 何在 无 线 网 络 中 运转 。 幸 运 的 是 ， 有 许多 解决 
这 个 问题 的 方法 。 最 常见 方法 的 是 ， 在 链 路 层 采 取 一 些 措施 来 减少 或 隐藏 由 于 位 错误 导致 
的 分 组 丢失 。 例 如 ，802.11 网 络 对 所 发 送 的 报 文 提供 了 一 种 前 向 纠 错 (FEC) 的 方法 ， 使 
一 些 错误 能 够 在 接收 方 进 行 纠正 。 另 一 种 方法 是 链 路 层 重 传 ， 这 样 ， 即 使 一 个 分 组 被 损坏 
或 丢失 ， 它 最 终 都 可 以 被 成 功 发 送 ，TCP 永远 不 会 察觉 初始 损失 。 每 一 种 方法 都 有 它 的 
缺点 : FEC 浪费 了 一 些 带宽 ， 有 时 仍 会 纠 错失 败 ， 而 重 传 不 仅 增加 了 连接 的 RIT 及 其 变 
化 情况 ， 而 且 会 导致 更 糟糕 的 表现 。 

在 某 些 情况 下 使 用 的 另 一 种 方法 是 将 TCP 连接 切 分 为 无 线 和 有 线段 。 这 个 方法 有 很 
多 延伸 ， 但 基本 方法 是 将 有 线 报 文 段 上 的 丢失 视 为 拥塞 信号 ， 而 将 无 线 报 文 段 上 的 丢失 视 
为 由 位 错误 引起 的 。 这 种 技术 已 经 在 卫星 网 络 中 使 用 ， 其 RTT 时 间 过 于 元 长 ， 因 此 人 们 
无 法 忍受 更 长 时 间 的 拥塞 处 理 。 不 像 链 路 层 方法 ， 这 种 方法 是 一 种 协议 中 端 到 端 操 作 的 基 
本 变换 。 这 也 意味 着 ， 在 连接 的 正 向 和 反 向 路 径 必 须 经 过 相同 的 “中 间 盒 "， 这 个 中 间 盒 
就 是 用 来 切 分 连接 的 。 

另 一 种 方法 试图 智能 地 区 分 拥塞 和 位 错误 两 种 丢失 的 差异 。 线 索 表 明 拥 塞 导 致 丢 包 ， 
例如 RTT 的 增加 和 后 续 的 丢 包间 的 相关 性 。 显 式 拥 塞 通 知 (ECN) 标记 (参见 第 6.4.2 
节 ) 也 可 以 提供 一 个 拥塞 即将 来 临 的 迹象 ， 所 以 随后 的 一 系列 损失 更 可 能 与 拥塞 有 关 。 显 
然 ， 如 果 你 能 发 现 这 两 种 丢失 之 间 的 差异 ， 那 么 TCP 不 需要 因 位 错误 有 关 的 丢失 而 降低 
其 窗口 。 不 幸 的 是 ， 这 种 方法 很 难 100 儿 判定， 同时 这 一 领域 也 是 研究 的 热点 。 





6.3.2 慢 启 动 


当 源 的 操作 接近 网 络 可 达到 的 能 力 时 ， 使 用 上 述 加 性 增 机 制 是 正确 的 ， 但 是 当 源 从 头 
开始 时 ， 则 要 用 很 长 时 间 才 能 延续 一 个 连接 。 因 此 TCP 提供 第 三 种 机 制 ， 讽刺 性 地 称 为 
慢 启 动 (slow start)S ， 它 从 较 小 的 值 开 始 迅速 增加 拥塞 窗口 ， 以 指数 方式 而 不 是 线性 方 
式 有 效 增加 拥塞 窗口 。 

具体 说 来 ， 源 开始 将 CongestionWindow 设置 为 1 个 分 组 ， 当 这 个 分 组 的 确认 到 达 源 





O 尽管 最 初 的 论文 中 将 其 称 为 “slow-start"， 但 今天 “slow start” 更 常用 ， 因 此 此 处 忽略 了 连 字符 。 
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Ih}, TCP 将 CongestionWindow 加 1， 然 后 发 送 两 个 分 组 ， 当 收 到 两 个 相应 的 确认 后 ， 
TCP 将 CongesticonWindow 加 2 ( 即 每 个 确认 加 1)， 然 后 发 送 上 个 


分 组 。 最终 结果 是 TCP 在 每 个 RTT 内 将 传送 的 分 组 数 加 倍 。 i 

图 6-10 显示 了 慢 启动 期 间 发 送 分 组 数 的 增长 情况 ， 可 与 图 6-8 所 ae 

示 的 累 次 增加 的 线性 增长 情况 相 比 较 ， | 
开始 时 我 们 会 对 为 什么 把 指数 机 制 称 为 “ 慢 速 ”有 些 迷 惑 ， ,一 

但 如 果 放 在 特定 的 历史 背景 中 就 可 以 解释 了 。 我 们 并 不 需要 将 慢 一 

启动 与 前 一 小 节 的 线性 机 制 相 比 ， 而 是 与 TCP 的 最 初 行为 相 比 。 ~ 

考虑 当 建 立 一 个 连接 和 源 开始 发 送 分 组 (也 就 是 当 它 目前 没有 分 -一 一 

组 发 送 ) 时 会 发 生 什 么 事情 。 若 源 发 送 通知 窗口 允许 的 分 组 数 “ 立 一 

(这 恰 是 提出 慢 启动 前 TCP 所 做 的 工作 )， 那么 即使 网 络 有 大 量 的 SS 


带宽 可 用 ， 路 由 顺 也 可 能 处 理 不 了 这 种 一 连 串 的 分 组 .这 完全 取 
决 于 路 由 器 上 可 用 的 缓冲 区 空间 的 大 小 。 因 此 慢 启 动用 于 将 分 组 
隔 开 ， 使 分 组 突然 增多 的 情况 不 会 发 生 。 换 句 话 说， 尽管 指数 增 
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长 比 线性 增长 快 ， 但 慢 启动 比 起 立即 发 送 整 个 通知 窗口 的 数据 量 es 
要 “ 慢 ” 得 多 。 了 
实际 上 慢 启动 能 够 在 两 种 不 同情 况 下 运作 。 第 一 是 在 刚 开始 SESS 
连接 时 ， 源 不 知道 它 在 给 定时 间 内 能 发 送 多 少 分 组 。( 记 住 ，TCP -20 


能 运行 在 从 9 600bps~2. 4Gbps 的 链 路 上 ， 因 此 源 无 法 知道 网 络 的 ”过 
能 力 .) 在 这 种 情况 下 ， 慢 启动 在 每 个 RTT 时 间 内 不 断 将 Conges- pg gin 慢 启 动 划 间 
tionWindow 加 倍 直至 发 生 分 组 丢失 ,这 时 超时 引起 Congestion- 传输 的 分 组 
Window 的 成 倍 减少 〈 除 以 2)。 

使 用 慢 启 动 的 第 二 种 情况 更 为 微妙 ， 这 发 生 在 连接 停止 而 等 待 超时 发 生 的 时 候 : 回想 
一 下 TCP 滑动 窗口 算法 的 原理 ， 当 一 个 分 组 丢失 时 ， 源 最 终 达 到 某 一 点 ,在 此 点 上 它 已 
经 发 送 通知 窗口 允许 的 分 组 数量 ， 因 此 当 它 等 待 一 个 不 会 到 达 的 确认 信息 时 阻塞 .最终 发 
生 超 时 ， 但 在 这 段 时 间 没 有 分 组 在 传送 ， 也 就 是 源 收 不 到 确认 以 “同步 ”新 分 组 的 传送 
源 将 收 到 一 个 要 求 重 新 打开 整个 通知 窗口 的 一 个 累积 的 ACK，, 但 如 上 所 述 , 源 于 是 用 慢 
启动 重新 启动 数据 流 ， 而 不 是 立即 将 整个 窗口 值 的 数据 都 送 到 网 上 。 

尽管 源 再 次 使 用 慢 局 动 ， 但 现在 所 得 到 的 信息 比 连接 开始 时 要 多 。 尤其 是 ， 源 知道 
CongestionWindow 的 当前 (并 且 是 有 用 的 ) 值 ， 这 是 最 近 一 个 分 组 丢失 前 存在 的 Conges- 


用 慢 启 动 将 发 送 速 率 快速 增长 到 这 个 值 ， 超 过 该 值 后 ， 则 用 累 次 增加 的 方法 。 注 意 ， 要 考 

虑 一 个 小 的 管理 操作 问题 ， 我 们 希望 能 记 住 由 于 成 倍 减少 而 产生 的 目标 拥塞 窗口 以 及 慢 局 

动 所 用 到 的 实际 (actual) 拥塞 窗口 。 为 解决 这 一 问题 ，TCP 引入 一 个 临时 变量 存储 目标 

窗口 ， 一 般 称 为 CongestionThreshold (拥塞 国 值 )， 它 的 值 等 于 由 于 成 倍 减少 而 产生 的 

CongestionWindow 值 。 然 后 变量 CongestionWindow 被 重 置 为 一 个 分 组 ， 以 后 每 收 到 

个 ACK 增加 一 个 分 组 ， 直 至 达到 CongestionThreshold， 在 这 一 点 每 一 个 RTT 增加 一 个 
换 多 话说 ，TCP 用 如 下 代码 段 定 义 拥塞 窗口 : 


IBLE tS BD Be 269 





u_int cw = state->CongestionWindow; 


u_int in = state->maxseg; 


if (cw > state->CongestionThreshold) 
incr = incr + incr / cw: 
state->CongestionWindow = MIN(cw + incr, TCP_MAXWIN); 
} 

其 中 state 表示 某 个 特定 TCP 连接 的 状态 ，TCP_MAXWIN 定义 允许 拥塞 窗口 增长 到 的 
LF. 
图 6-11 描绘 了 TCP 的 Congestion Window 随时 间 增 减 的 轨迹 ， 同 时 说 明 慢 启动 和 加 
性 增 / 乘 性 减 的 相互 作用 。 这 一 轨迹 取 自 一 个 实际 TCP 连接 ， 并 显示 CongestionWindow 
随时 间 变 化 的 当前 值 . 





1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 
时 间 ( 秒 ) 
图 6-11 TCP 拥塞 控 制 行为 。 曲 线 = + 间 变 化 的 CongestionWindow 的 值 ; 图 上 方 的 黑 点 三 超时 ; 
图 上 方 的 细 线 二 每 个 分 组 被 传送 的 时 刻 ; 竖 条 三 最 终 要 被 重 传 的 分 组 首次 传送 的 时 刻 


有 关 这 一 轨迹 需 注意 以 下 几 件 事情 。 首 先 拥塞 窗口 在 连接 开始 时 迅速 增加 ， 这 对 应 于 
初始 慢 启 动 过 程 。 慢 启动 阶段 持续 到 大 约 进入 连接 0.4s 后 几 个 分 组 丢失 ， 此 时 Conges- 
tionWindow 保持 在 约 34KB 处 (为 什么 许多 分 组 在 慢 启 动 过程 中 丢失 将 在 下 面 讨论 )。 拥 
蹇 窗口 不 变 是 由 于 几 个 分 组 丢失 而 导致 没有 ACK 到 达 。 事 实 上 ， 在 这 段 时 间 里 没有 发 送 
新 的 分 组 ， 如 图 6-11 中 上 方 没有 小 条 的 那 一 段 。 最 后 大 约 在 2s 时 发 生 超时 ， 此 刻 拥塞 窗 
口 减 半 ( 即 从 大 约 34KB 减 到 17KB 左右 )， 同 时 CongestionThreshold 也 被 设置 为 该 值 。 
然后 慢 启 动 将 CongestionWindow 重 设 为 1 个 分 组 并 开始 由 此 增加 。 

在 这 一 轨迹 中 没有 足够 的 细节 可 以 精确 地 看 出 在 刚 过 2s 时 丢失 一 对 分 组 后 发 生 的 事 
情 ， 所 以 直接 来 看 在 2~4s 间 拥 寒窗 口 的 线性 增加 。 这 对 应 于 本 节 中 的 加 性 增 。 大 约 从 4s 
开始 ， 由 于 丢失 分 组 CongestionWindow 变 平坦 。 现 在 ， 大 约 在 5. 5s: 

1) 发 生 超 时 ， 使 拥塞 窗口 减 半 ， 从 大 约 22KB BEA 11KB， 同 时 CongestionThresh- 
cld 也 设置 为 该 值 。 

2) CongestionWindow 被 重 设 为 1 个 分 组 ， 随 之 发 送 方 进入 慢 启 动 。 

3) 慢 启 动 使 CongestionWindow 按 指数 增加 ， 直 至 CongestionThreshold, 

4) CongestionWindow 开始 线性 增加 。 

大 约 在 8s 时 又 一 次 超时 发 生 ， 重 复 上 述 过 程 。 

现在 我 们 回 到 慢 启 动 开 始 时 为 什么 会 有 许多 分 组 丢失 的 问题 。TCP 在 此 试图 了 解 网 
络 上 有 多 少 可 用 带宽 ， 这 是 一 项 很 困难 的 任务 。 如 果 源 在 这 个 阶段 不 积极 ， 例 如 如 果 它 仅 
仅 线性 增加 拥塞 窗口 ， 那 么 要 确定 有 多 少 可 用 带宽 需 用 很 长 时 间 。 这 对 连接 可 达到 的 吞吐 
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要 了 解 在 指数 增加 过 程 中 的 情况 ,考虑 这 样 一 种 情形 : 源 通过 网 络 刚好 能 成 功 发 送 16 
个 分 组 到 目的 地 ， 这 使 拥塞 窗口 增 至 32。 但 是 假设 网 络 磁 巧 只 有 支持 从 这 个 源 发 送 的 16 
个 分 组 的 能 力 ， 那 么 在 新 的 拥塞 窗口 之 下 发 送 的 32 个 分 组 中 的 16 个 可 能 被 网 络 丢 弃 。 实 
际 上 ， 这 只 是 最 坏 的 情形 ， 因 为 在 某 些 路 由 器 上 还 可 以 缓存 一 些 分 组 。 这 个 问题 会 随 着 网 
络 的 延迟 带宽 积 的 增加 而 变 得 日 益 严 重 。 比 如 说 ， 延 迟 带宽 积 为 500KB， 这 意味 着 在 每 个 
连接 开始 时 ， 每 个 连接 最 多 可 能 丢弃 500KB 的 数据 。 当 然 ， 这 是 假设 源 和 目的 地 都 实行 
“大 窗口 ”扩充 。 

一 些 协议 设计 者 已 提出 了 和 蔡 换 慢 启动 的 方法 ， 源 试图 通过 更 复杂 的 方式 来 估计 可 用 带 
宽 。 一 个 最 近 的 例子 是 正在 IETF 进行 标准 化 的 快 启 动 (quick-start) 机 制 。 其 基本 思想 
Æ TCP 发 送 方 能 够 在 SYN 分 组 的 IP 选项 中 放置 请 求 速率 来 请 求 一 个 比 慢 启动 初始 发 送 
速率 高 的 初始 发 送 速率 。 沿 途 路 由 器 可 以 检查 选项 .在 该 流 经 过 的 链 路 上 估计 拥塞 程度 . 
决定 是 否 该 速率 是 可 接受 的 ， 是否 一 个 较 低 的 速率 是 可 接受 的 , 或 者 是 否 应 该 使 用 标准 的 
慢 启 动 。 当 SYN 到 达 接 收 方 时 ， 它 将 包含 路 径 上 所 有 路 由 器 可 接受 的 速率 以 及 路 径 上 不 
支持 快 启动 请 求 的 一 台 或 多 台 路 由 器 的 指示 。 在 前 一 情况 下 ，TCP 发 送 方 使 用 该 速率 开 
始 传 输 ; 在 后 一 情况 下 ， 它 返回 到 标准 的 慢 启 动 。 如 果 允 许 TCP 以 较 高 的 速率 启动 ， 那 
么 会 话 能 够 更 快 地 进入 传输 流 ， 而 不 必 等 待 多 个 往返 时 间 。 

显然 如 此 改进 TCP 面临 的 挑战 之 一 是 相对 于 标准 TCP 而 言 的 . 它 需 要 路 由 器 进行 更 
充分 的 协调 。 如 果 路 径 中 的 一 台 路 由 器 不 支持 快 启动 , 那么 系统 只 能 返回 到 标准 的 慢 启 
动 。 因 此 ， 这 种 改进 要 用 在 因特网 中 还 需要 相当 长 的 时 间 。 目 前 ， 这 种 方法 主要 使 用 在 受 
控制 的 网 络 环境 中 〈 人 例如， 研究 性 的 网 络 ) 。 


6.3.3 快速 重 传 和 快速 恢复 


至 今 描述 的 机 制 只 是 将 拥塞 控制 加 至 TCP 中 的 最 初 方案 的 一 部 分 。 人 们 很 快 发 现 ， 
TCP. 超时 的 粗 粒 度 实 现 方 法 导致 连接 在 等 待 一 个 计时 器 超时 时 ， 有 很 长 一 段 时 间 连 接 无 
效 。 因 此 ， 一 种 称 为 快速 重 传 (fast retransmit) 的 新 机 制 被 加 入 到 TCP 中 。 快 速 重 传 是 
一 种 局 发 式 的 机 制 ， 有 时 它 触 发 对 丢失 分 组 的 重 传 比 常规 超时 机 制 更 快 。 快 速 重 传 机 制 并 
不 能 代替 常规 超时 机 制 ， 它 只 是 增强 功能 。 

快速 重 传 的 思想 简单 明了 。 每 当 数据 分 组 到 达 接 收 方 时 ， 接 收 方 会 用 ACK 作为 啊 应 ， 
即使 这 个 序号 已 被 确认 过 。 这 样 ， 当 分 组 没有 按 正常 顺序 到 达 ， 或 当 TCP 由 于 它 前 面 的 
数据 还 没有 到 达 而 不 能 确认 分 组 中 的 数据 时 ，TCP 会 将 它 上 次 发 过 的 确认 信息 再 发 一 次 . 
同一 个 确认 的 第 二 次 重 传 称 为 重复 确认 (duplicate ACK)。 当 发 送 方 发 现 一 个 重复 确认 
时 ， 它 就 知道 接收 方 必 定 收 到 一 个 未 按 正常 顺序 到 达 的 分 组 ， 表 明 它 前 面 的 分 组 可 能 丢 
失 。 由 于 前 面 的 分 组 有 可 能 只 是 延迟 到 达 ， 并 没有 丢失 ， 所 以 发 送 方 等 待 ， 直 至 看 到 一 定 
数量 的 重复 确认 ， 然 后 才 重 传 丢失 的 分 组 。 实 际 应 用 中 ，TCP 等 待 直到 看 到 三 个 重复 确 
认 ， 才 开始 重 传 分 组 。 

图 6-12 说 明了 重复 确认 如 何 导 致 快速 重 传 的 过 程 。 在 此 例 中 ,目的 地 址 收 到 分 组 1 
和 分 组 2， 但 分 组 3 在 网 络 中 丢失 。 这 样 ， 目 的 地 址 在 分 组 4 到 达 时 为 分 组 2 发 送 一 个 重 
复 确认 ， 当 分 组 5 到 达 时 又 发 一 个 ， 依 此 类 推 。 (为 简化 这 个 例子 ， 我 们 按 分 组 1、2、3 
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等 来 考虑 ， 而 不 必 考 虑 每 个 字 节 的 序号 。) 当 发 送 方 看 到 分 组 2 的 第 三 个 重复 确认 时 (发 
送 第 三 个 确认 是 因为 接收 方 已 收 到 分 组 6)， 它 就 重 传 分 组 发 送 方 接收 方 
3。 注 意 当 被 重 传 的 分 组 3 的 拷贝 到 达 目 的 地 时 ， 接 收 方 给 源 ”分 组 1 
发 送 一 个 累积 确认 ， 用 于 确认 已 收 到 包括 分 组 6 的 所 有 分 组 。 分 组 3 | 
图 6-13 说 明了 带 有 快速 重 传 机 制 的 一 个 TCP 版 本 的 行 分 组 4 | 
为 。 如 果 和 图 6-11 中 的 轨迹 其 中 未 实现 快速 重 传 ) 相 比 ， 
你 会 发 现 一 个 有 趣 的 现象 : 拥塞 窗口 保持 不 变 且 没有 分 组 发 
送 的 那 段 很 长 的 时 间 已 经 被 消除 。 通 常 ， 在 一 次 典型 的 
TCP 连接 中 ,这 种 技术 可 以 消除 大 约 一 半 的 粗 粒 度 的 超时 ， 
从 而 使 吞吐 量 比 其 他 方法 提高 20%% 左 右 。 但 要 注意 ， 人 快速 重 传 | 
重 传 策略 并 不 能 消除 所 有 粗 粒 度 的 超时 。 这 是 因为 对 于 小 的 “分 组 3 | 
窗口 ， 没 有 足够 多 的 分 组 传送 引起 足够 多 的 重复 确认 。 假 设 | 
丢失 足够 多 的 分 组 (例如 ,在 初始 慢 启 动 阶段 所 发 生 的 )， 
滑动 窗口 算法 最 终 阻塞 发 送 方 直至 超时 发 生 。 假 设 当 前 最 大 
通知 窗口 为 64KB， 在 实际 应 用 中 ，TCP 的 快速 重 传 机 制 的 。 图 6-12 基于 重复 ACK 的 
每 个 窗口 最 多 能 检测 到 三 个 被 丢弃 的 分 组 。 快速 重 传 


确认 6 








10 20 3.0 40 5.0 6.0 7.0 
时 间 (E) 

图 6-13 带 快速 重 传 的 TCP 轨迹。 曲线 = 拥塞 窗口 ; 黑 点 = 二 超时 ， 细 线 标记 二 

每 个 分 组 传送 的 时 刻 ， 竖 条 = 最 终 被 重 传 的 分 组 的 首次 传送 时 刻 


最 后 ， 我 们 可 以 再 做 一 个 改进 。 当 快速 重 传 机 制 发 出 拥塞 信号 时 ， 不 把 拥塞 窗口 退回 
] 个 分 组 并 启动 慢 启动 ， 而 是 可 能 利用 还 在 管道 中 的 ACK 去 同步 分 组 的 发 送 。 这 种 称 为 
快速 恢复 (fast recovery) 的 机 制 有 效 地 消除 了 在 快速 重 传 检测 到 一 个 丢失 分 组 并 开始 加 
性 增 之 间 的 慢 启 动 过程 。 例 如 ， 快 速 恢复 避免 了 图 6-13 中 3. 8 一 4s 之 间 的 慢 启动 过 程 ， 直 
接 将 拥塞 窗口 减 半 OK 22KB 减 至 11KB) 并 重新 开始 加 性 增 。 换 句 话 说 ， 慢 启动 仅 用 于 
连接 开始 和 发 生 粗 粒度 超时 的 时 刻 。 在 其 他 时 间 ， 拥 塞 窗口 遵循 加 性 增 / 乘 性 减 模式 。 


相关 主题 

快速 TCP? 

在 过 去 的 20 年 中 ， 有 关 TCP 能 够 运行 得 多 快 的 争论 相当 多 。 首 先 有 声明 说 TCP A 
复杂 了 ， 因 此 随 着 网 络 向 G 比特 的 范围 发 展 ， 它 不 能 在 主机 软件 上 运行 得 太 快 。 该 声明 多 
次 受到 驶 斥 。 最 近 ， 有 重要 理论 表明 标准 TCP 在 高 带宽 环境 下 的 性 能 是 受 限 制 的 。TCP 
的 拥塞 控制 行为 分 析 显 示 出 ， 在 稳定 状态 下 ，TCP 的 吞吐 量 大 约 是 : 

L ZZ MSS) 


Rate = 
i feces: 





在 具有 100ms RTT 和 10Gbps 链 路 的 网 络 上 ， 如 果 分 组 丢失 率 在 每 50 亿 个 分 组 丢失 1 个 
以 下 的 话 一 一 等 价 于 每 100 分 钟 出 现 一 个 拥塞 事件 ， 那 么 一 个 TCP 连接 只 能 达到 接近 于 
链 路 速率 的 吞吐 量 。 虽 然 光纤 上 比特 错误 率 很 低 ， 分 组 丢失 率 很 小 ， 但 也 比 这 个 要 求 的 分 
组 丢失 率 高 得 多 ， 因 此 不 可 能 用 单一 TCP 连接 填充 管道 。 人 们 提出 了 许多 在 高 带宽 网 络 
上 改进 TCP 行为 的 方案 ， 增 加 了 其 范围 。 受 限于 MSS, 已 经 提出 的 一 个 简单 的 改进 是 增 
加 分 组 大 小 。 不 幸 的 是 ， 增 加 分 组 大 小 也 增加 了 给 定 分 组 出 现 比 特 错 误 的 机 会 ， 因 此 单纯 
增加 MSS 不 是 足够 的 。IETF 提出 的 其 他 方案 对 TCP 避免 拥塞 的 方式 进行 了 改进 ， 试图 
使 TCP 能 够 更 好 地 利用 可 用 带宽 。 这 里 的 挑战 对 于 标准 TCP 实现 来 说 是 公平 的 ， 对 于 中 
免 导致 当前 TCP 行为 的 拥塞 事件 来 说 也 是 公平 的 。 

目前 探索 性 的 RFC 提出 了 高 速 TCP 方案 ， 这 对 于 在 高 带宽 环境 下 并 且 不 和 其 他 大 量 
流量 竞争 情况 下 的 TCP 来 说 是 有 效 的 。 实 际 上 ， 当 拥塞 窗口 变 得 很 大 时 ， 高速 TCP 以 比 
标准 TCP 大 得 多 的 拥塞 窗口 来 启动 。 在 拥塞 窗口 相对 比较 小 的 一 般 环境 下 (大约 40> 
MSS), @# TCP 与 标准 TCP 是 无 法 区 分 的 。 在 “扩展 阅读 ”中 列 出 的 部 分 其 他 方案 也 
是 如 此 。 注 意 ， 在 Linux 操作 系统 中 默认 的 TCP 行为 现在 是 基于 一 个 叫 作 CUBIC 的 TCP 
变种 ， 它 急剧 扩大 了 在 高 延迟 带宽 积 制度 下 的 拥塞 窗口 。 同 时 在 带宽 受 限 的 情况 下 ,保持 
与 旧 TCP 变种 的 兼容 性 。 

上 面 提 到 的 是 快 启动 方案 ， 它 改变 了 TCP 的 启动 行为 。 因 为 它 使 TCP 连接 能 够 更 快 
地 提高 发 送 速率 ， 因 此 当 连 接 时 间 比 较 短 或 应 用 程序 周期 性 地 停止 发 送 数 据 使 TCP 返回 
到 慢 启 动 阶段 时 ， 它 对 TCP 性 能 的 影响 是 非常 明显 的 。 

然而 另 一 个 方案 FAST TCP 采取 了 类 似 TCP Vegas (在 下 一 章 中 描述 ) 的 方法 。 其 
基本 思想 是 预测 拥堵 的 发 生 并 避免 它 ， 从 而 在 减少 拥塞 窗口 时 避免 性 能 损失 。 

好 几 种 方案 涉及 了 对 TCP 的 更 大 改变 ， 甚 至 用 新 开发 的 协议 对 其 进行 了 蔡 换 。 这 些 
方案 对 于 在 高 带宽 环境 下 快速 并 公平 地 填充 管道 有 相当 大 的 好 处 ， 但 也 面临 着 需要 更 高 配 
置 的 挑战 。 本 章 末 将 向 读者 介绍 该 领域 的 最 新 工作 进展 。 





6.4 拥塞 避免 机 制 


TCP 的 策略 是 一 旦 发 生 拥 塞 时 就 控制 它 ， 而 不 是 从 一 开始 就 试图 避免 拥塞 的 发 生 ， 
理解 这 一 点 是 重要 的 。 事 实 上，TCP 在 努力 找到 拥塞 发 生 点 的 过 程 中 不 断 地 给 网 络 增加 
负载 ， 然 后 从 这 一 点 回 退 。 换 言 之 ，TCP 需要 制造 丢失 分 组 来 发 现 连接 的 可 用 带宽 。 男 
外 一 种 富有 吸引 力 但 还 未 被 广泛 接受 的 策略 ， 就 是 预测 拥塞 将 在 何 时 发 生 ， 然 后 在 分 组 刚 
要 被 丢弃 前 降低 主机 发 送 数据 的 速率 ， 我 们 称 这 种 策略 为 拥塞 避免 (congestion avoid- 
ance)， 以 便 与 拥塞 控制 (congestion control) 相 区 别 。 

本 节 描 述 三 种 不 同 的 拥塞 避免 机 制 。 前 两 种 方法 很 相似 : 它们 在 路 由 器 上 增加 少量 附加 
功能 来 协助 拥塞 中 的 端 节点 。 第 三 种 机 制 和 前 两 种 截然 不 同 ， 它 试图 纯粹 从 端 节点 避免 拥塞 。 


6.4.1 DECbit 


第 一 种 机 制 用 于 数字 网 络 体系 结构 (Digital Network Architecture, DNA), DNA 是 
使 用 面向 连接 的 传输 层 协议 的 一 个 无 连接 网 络 。 因 此 这 种 机 制 可 用 于 TCP 和 IP。 如 上 所 
述 ， 这 种 机 制 的 思想 是 更 均匀 地 将 拥塞 控制 的 责任 分 摊 给 路 由 器 和 端 节 点 。 每 台 路 由 器 监 
视 当 前 负载 并 且 在 拥塞 将 发 生 时 明确 地 通知 端 节点 。 这 种 通知 是 通过 在 流 经 路 由 器 的 分 组 
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中 设置 1 个 二 进 制 拥塞 位 来 实现 的 ， 这 个 位 因此 叫 作 DECbit。 然 后 目标 主机 将 这 一 拥塞 位 
复制 到 它 传 送 回 源 的 ACK 中 。 最 后 源 调整 发 送 速 率 来 避免 拥塞 。 下面 的 讨论 描述 更 多 算法 
的 细节 ， 从 路 由 器 中 发 生 的 情况 开始 。 

一 个 拥塞 位 被 加 到 分 组 首部 。 在 分 组 到 达 时 ， 如 果 平 均 队 列 长 度 大 于 或 等 于 1， 那么 
路 由 器 就 在 分 组 中 设置 这 一 位 。 平均 队列 长 度 用 最 近 一 次 忙 十 闲 Cbusy+ idle) 周期 加 上 
当前 忙 周期 的 时 间 间 隔 来 测量 。( 当 路 队列 长 度 
由 器 传送 分 组 时 称 为 忙 ， 否 则 称 为 闲 .) 
图 6-14 显示 了 路 由 需 上 的 队列 长 度 是 时 
间 的 函数 . 本 质 上 讲 ， 路 由 器 计算 曲线 当前 时 间 
下 的 区 域 . 并 以 此 值 除 以 这 段 时 间 间 隔 
来 计算 平均 队列 长 度 。 用 队列 长 度 为 1 
作为 设置 拥塞 位 的 触发 点 是 对 于 有 效 排 y sik 

















队 (因此 提高 吞吐 率 ) 和 增加 空闲 时 间 前 个 一 | 一 一 当前 的 一 
(因此 降低 延迟 ) 的 一 种 折 囊 方案 。 换 
= 平均 间隔 


言 之 ,长 度 为 1 的 队列 看 起 来 优化 了 能 
HAX. 图 6-14 在 路 由 器 上 计算 平均 队列 长 度 

下 面 我 们 青 来 看 看 这 种 机 制 中 主机 部 分 需 做 的 工作 。 源 记录 有 多 少 个 分 组 引起 路 由 器 
设置 拥 蹇 位 。 实 际 应 用 中 ， 源 维护 一 个 拥塞 窗口 (如同 在 TCP 中 一 样 )， 并 观察 最 近 一 个 
窗口 中 引起 设置 拥塞 位 的 分 组 数 的 比例 。 和 否 这 个 比例 小 于 50%， 源 就 将 其 拥塞 窗口 增加 1 
个 分 组 。 若 这 个 比例 大 于 或 等 于 50%， 源 就 将 其 拥塞 窗口 减 至 原 有 值 的 0.875. 选择 50% 
作为 国 值 ， 是 基于 对 能 力 曲 线 中 峰值 的 分 析 。 选 择 “ 增 加 1 个 分 组 减 至 原 拥塞 窗口 值 的 
0.875” 的 原则 是 因为 加 性 增 / 乘 性 减 会 使 这 种 机 制 更 加 稳定 。 


6.4.2 随机 早期 检测 (RED) 


第 二 种 机 制 叫 作 随机 早期 检测 (Random Early Detection，RED)， 它 与 DECbit 很 相 
Wh. 是 在 每 台 路 由 如 上 编程 监视 自己 的 队列 长 度 ， 当 检测 到 拥塞 即将 发 生 时 ， 就 通知 源 调 
整 拥塞 窗口 。RED 是 在 20 世纪 90 年 代 早期 由 Sally Floyd 和 Van Jacobson KWAY, ES 
DECbit 方案 主要 有 两 点 不 同 。 

首先 ，RED 不 是 显 式 地 发 送 一 个 拥塞 通知 消息 给 源 ，RED 最 常见 的 实现 方式 是 通过 
丢弃 一 个 分 组 隐 式 地 通知 源 发 生 拥 塞 。 因 此 ， 源 实际 上 是 通过 随 之 而 来 的 超时 或 重复 确认 
得 到 通知 。RED 被 设计 为 与 TCP 配合 使 用 ， 目 前 通过 超时 方式 检测 拥塞 (或 者 通过 其 他 
方式 检测 丢失 分 组 ， 例 如 重复 确认 )。 至 于 RED 名 称 中 的 “早期 ”一 词 ， 是 指 网 关 会 在 它 
不 得 不 丢弃 一 个 分 组 之 前 就 提前 把 它 丢 弃 ， 以 此 通知 源 应 提早 减少 拥塞 窗口 。 换 言 之 ， 路 
由 人 需 在 它 的 缓冲 区 被 完全 填 满 之 前 就 提前 丢弃 少量 的 分 组 ， 以 此 使 源 放 慢 发 送 分 组 的 速 
率 ， 作 为 表明 以 后 不 必 再 丢弃 大 量 分 组 的 希望 。 需 要 说 明 的 是 ，RED 只 要 简单 地 将 丢弃 
(dropping) 分 组 改 为 标记 (marking) 分 组 ， 就 可 以 很 容易 地 让 它 与 显示 的 反馈 方案 一 同 
[六 作 ， 详 细 讨 论 见 下 面 的 显 式 拥塞 通知 ， 


相关 主题 
显 式 拥 塞 通 知 (ECN) 
由 于 目前 的 RED 总 是 通过 丢弃 分 组 发 出 拥塞 信号 ， 因 此 最 近 人 们 已 经 在 关注 采用 显 
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式 通知 是 否 是 一 个 更 好 的 策略 。 这 就 导致 了 制定 因特网 的 显示 拥塞 通知 (Explict Conges- 
tion Notification, ECN) 标准 。 

基本 争论 是 ， 丢 弃 分 组 当然 可 以 作为 发 生 拥 塞 的 信号 ， 而 且 对 于 那些 长 时 间 的 大 块 传输 
来 说 可 能 是 正确 的 做 法 ， 但 是 这 样 做 会 损害 那些 对 延迟 和 丢失 几 个 分 组 敏感 的 应 用 。 例 如 人 
Telnet 和 Web 浏览 这 样 的 交互 式 应 用 ,通过 显 式 通知 来 获知 拥塞 将 对 这 类 应 用 更 为 合适 

ECN 在 技术 上 需要 用 2 比特 位 ， 建 议 标 准 使 用 IP TOS 字段 的 第 6 位 和 第 7 位。 其 中 
一 位 是 由 信 源 设置 的 ECN 位 ， 表 明 源 端 能 够 处 理 拥 塞 通 知 。 另 一 位 由 端 到 端 路 径 上 的 路 
由 器 在 发 生 拥 塞 时 设置 ， 由 目的 主机 返回 给 源 主机 。 源 主机 上 和 运行 的 TCP 将 对 ECN 位 的 
设置 值 做 出 响应 ， 响 应 方式 与 对 被 丢弃 分 组 的 响应 一 样 。 

正 像 任 何 好 主意 一 样 ， 最 近 ECN 引起 的 关注 已 经 让 人 们 停 下 来 并 开始 思考 ， 如 何 合 
网 络 从 在 网 络 边 缘 的 主机 与 网 络 中 间 的 路 由 器 之 间 以 ECN FX RRR A LH BY E 
息 这 一 方式 中 获 益 。 这 种 通用 的 策略 有 时 称 oe 管理 (active queue management). 
而 且 近 期 的 研究 似乎 表明 ， 这 对 那些 具有 较 大 延迟 -带宽 的 TCP 流 尤其 有 价值 。 有 兴趣 的 
读者 可 以 进一步 阅读 本 章 最 后 给 pe 


ht 





RED 和 DECbit 的 第 二 个 不 同 点 是 在 决定 何 时 丢弃 一 个 分 组 和 丢弃 哪个 分 组 的 细节 
上 。 为 理解 其 基本 思想 ， 考 虑 一 个 简单 的 FIFO 队列 。 它 不 是 等 队列 完全 排 满 以 后 再 将 每 
个 到 达 的 分 组 丢弃 (6. 2. 1 节 的 队 尾 丢弃 策略 )， 而 是 当 队 列 长 度 超过 某 个 丢弃 级 别 (drop 
level) 时 ， 按 照 某 个 丢弃 概率 (drop probability) 将 到 达 的 分 组 丢弃 。 这 种 思想 称 为 早期 
随机 丢弃 (early random drop), RED 算法 定义 如 何 监视 队列 长 度 和 何 时 丢弃 分 组 的 细节 . 

在 下 面 的 段落 中 ， 我们 描述 由 Floyd 和 Jacobson 最 初 提出 的 RED 算法 。 我 们 注意 到 ， 
还 有 发 明 人 和 其 他 研究 者 提出 的 几 种 改进 算法 ， 本 章 的 “扩展 阅读 ”将 讨论 其 中 的 一 些 改 
进 算法 。 然 而 ， 其 基本 思想 与 下 面 描 述 的 相同 ， 当 前 的 实现 也 接近 于 下 面 的 算法 ，。 

第 一 ，RED 用 加 权 动 态 平 均值 来 计算 平均 队列 长 度 ， 这 个 加 权 动 态 平 均值 和 最 初 
TCP 超时 计算 中 用 到 的 权 值 类 似 。 就 是 说 ，AvgLen 用 如 下 公式 计算 

AvgLen = (1— Weight) X AvgLen+ Weight X SampleLen 
其 中 0 二 Weight 过 1 H. SampleLen 是 样本 测量 时 的 队列 长 度 。 在 大 多 数 软 件 实现 中 ,每 当 一 
新 的 分 组 到 达 网 关 时 ， 就 测量 一 次 队列 长 度 。 在 硬件 中 ， 它 可 以 在 某 个 特定 的 采样 间 隅 计算 ， 

使 用 平均 队列 长 度 而 不 是 瞬间 队列 长 度 ， 是 因为 平均 队列 长 度 能 更 准确 地 捕获 拥塞 的 
动向 。 由 于 因特网 通信 量 的 突 发 性 ， 队 列 会 突然 排 满 然 后 又 变 空 。 如 果 队 列 大 部 分 时 间 都 
是 空 的 ， 那 么 得 出 结论 路 由 器 拥塞 并 告知 主机 
放 慢 速度 可 能 并 不 合适 。 于 是 ， 加 权 动 态 平 均 
值 的 计算 试图 通过 滤 出 队列 的 短期 变化 来 检测 is 
长 期 存在 的 拥塞 ， 如 图 6-15 的 右 半 部 分 所 示 。 

可 以 把 动态 平均 值 想 象 成 一 个 低 通 滤波 器 ， 其 
中 Weight 〈 权 值 ) 决定 滤波 器 的 时 间 和 常量。 如 
何 选择 这 个 时 间 常 量 的 问题 将 在 下 面 讨 论 。 +? 

第 二 ，RED AW BIA BAB KCI BEL fi DY. 
某 种 特定 的 活动 : MinThreshold (最 小 国 值 ) 
和 MaxThreshold (最 大 阅 值 )。 当 分 组 到 达 网 图 6-15 加 权 动 态 平均 队列 长 度 


队列 长 度 


时 间 
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关 时 ，RED 将 当前 的 AvgLen 同 这 两 个 净值 比较 ， 采 用 下 面 的 规则 : 
如 果 AvgLen<MinThreshold 
一 分 组 入 队列 
如 果 MinThreshold< AvgLen< MaxThreshold 
一 计算 概率 卫 
一 按 概率 了 丢弃 到 达 的 分 组 
如 果 MaxThreshold<AvgLen 
一 雪 弃 到 达 的 分 组 
也 就 是 说 ， 如 果 平均 队列 长 度 比 下 阅 值 小 ， 那 么 无 需 采 取 任 何 措施 ; 如 果 平 均 队列 长 度 大 
FEMA. MADPAREREFR. MREMWIAKEEAMS AMZ. 那么 按 某 个 概率 P 
将 新 到 的 分 组 丢弃 。 图 6-16 描绘 了 这 种 情况 。P 和 AvgLen 的 关系 大 致 如 图 6-17 所 示 。 
注意 ， 当 AvgLen 的 值 在 两 个 阐 值 之 间 时 ， 丢 弃 分 组 的 概率 缓慢 增长 ,在 上 阅 值 处 达到 
MaxP， 在 那 一 点 直接 跳 到 1。 其 理由 是 : 当 AvgLen 达到 上 阅 值 时 ,温和 的 方法 (丢弃 一 
些 分 组 ) 已 经 不 起 作用 ， 因 此 要 使 用 激进 的 方法 ， 即 丢弃 所 有 到 达 的 分 组 。 有 一 些 研究 者 提 
出 建议 ， 从 随机 丢弃 到 完全 丢弃 应 有 一 个 较 平滑 的 过 渡 ， 而 不 应 用 这 里 所 示 的 突变 方法 。 








P (EF) 
MaxThreshold MinThreshold 1.0 i 
| 
| MaxP _ 
ee AvgLen 
AvgLen MinThresh MaxThresh 
图 6-16 在 FIFO 队列 中 的 RED Hfi 图 6-17 RED 的 丢弃 概率 函数 


尽管 图 6-17 显示 了 丢弃 概率 只 是 AvgLen 的 函数 ,但 实际 情况 要 复杂 一 些 。 事 实 上 ， 
P 是 Avglen 和 上 个 分 组 被 丢弃 后 距 当 前 时 间 的 函数 。 具 体 地 说 ， 它 的 计算 公式 如 下 : 
TempP= MaxP X (AvgLen— MinThreshold) /( MaxThreshold— MinThreshold) 
P=TempP/(1—count X TempP) 
TempP 是 图 6-17 中 面 在 y 轴 上 的 变量 。 当 Avglen 在 两 个 阔 值 之 间 时 ，count 记录 有 和 多少 
到 达 的 分 组 已 经 排 人 队列 REF). P 随 count 值 的 增加 而 缓慢 增加 ， 由 此 使 得 丢弃 最 近 
一 个 分 组 后 ， 丢 奔 分 组 的 可 能 性 随 着 时 间 的 增加 而 增加 。 这 使 得 间隔 较 小 的 丢弃 比 间隔 较 
大 的 丢弃 要 少 一 些 。 计 算 P 的 这 一 额外 步骤 是 由 RED 的 发 明 者 引入 的 ， 他 们 观察 到 ， 没 
有 这 一 步 ， 分 组 的 丢弃 就 不 能 很 好 地 按时 间 分 布 ， 而 是 趋 于 成 群发 生 。 由 于 来 自 某 一 连接 
的 分 组 到 达 可 能 是 突 发 式 的 ， 所 以 这 种 成 群 的 丢弃 可 能 使 单条 连接 上 的 丢弃 倍增 。 这 不 是 
我 们 所 期 望 的 ， 因 为 在 每 个 RTT 内 只 丢 一 个 分 组 就 足以 让 连接 减少 窗口 尺寸 ， 而 丢弃 多 
个 分 组 则 会 让 连接 回 退 到 慢 启 动 。 
作为 例子 ， 假 设 设 置 MaxP 为 0.02 A count 初始 化 为 0。 如 果 平 均 队 列 长 度 位 于 两 个 
BaP ta], M TempP Æ P 的 初始 值 将 是 MaxP 的 一 半 (0.01)。 当 然 ， 到 达 的 分 组 有 
99% 的 可 能 进入 队列 。 随 着 每 个 后 续 的 分 组 不 被 丢弃 ，P 缓慢 增加 ， 当 50 个 分 组 都 无 丢 


276 FA 6 至 








弃 地 到 达 时 ，P 将 加 倍 到 0. 02。 在 未 必 出 现 的 99 个 分 组 无 丢失 到 达 的 事件 中 . P 达到 1 
保证 下 一 个 分 组 被 丢 充 。 算 法 部 分 的 重点 是 它 确 保 丢 弃 大 人 致 随时 间 均 匀 分 布 

当 AvgLen 超过 MinThreshold 时 、 如 果 RED 仅 丢 弃 了 一 小 部 分 分 组 .那么 将 导致 
些 TCP 连接 减 小 它们 的 窗口 尺寸 ， 从 而 降低 分 组 到 达 路 由 器 的 速 紊 。 如 果 一 切 正常 。 Av 
gLen 将 随 之 减少 且 拥 寨 得 以 避免 。 队 列 长 度 可 能 保持 较 短 ， 且 由 于 很 少 出 现 分 组 丢弃 市 
使 吞吐 量 保持 较 高 水 平 。 

注意 ， 由 于 RED 的 操作 是 在 一 个 随时 间 平 均 的 队列 长 度 上 . 瞬间 队列 长 度 可 能 会 远 


大 于 AvgLen。 在 这 种 情况 下 ， 如 果 一 个 分 组 到 达 而 没有 地 方 放置 ， 那么 它 将 不 得 不 被 于 
弃 。 一 旦 发 生 这 种 情况 ，RED 将 按 队 尾 丢 弃 模 式 操 作 。RED 的 目标 之 一 是 只 要 可 能 就 避 
RM FE FRE 


RED 的 随机 性 赋予 算法 一 个 有 趣 的 特性 。 由 于 RED 随机 地 丢弃 分 组 .所 以 RED 决 
定 丢 弃 某 一 特定 流 的 分 组 的 概率 和 这 个 流 在 路 由 器 上 获得 的 带宽 份额 成 比例 。 这 是 因为 当 
一 个 流 发 送 分 组 的 数量 较 多 时 ， 它 就 提供 更 多 可 供 随机 丢弃 的 候选 分 组 。 这样 在 RED 中 
就 有 了 某 种 公平 资源 分 配 的 感 党 ， 尽 管 这 绝 不 是 准确 的 。 

结论 注意 有 大 量 的 分 析 在 探究 如 何 设 置 各 种 RED RH. 如 MaxThreshold、 

MinThreshold, MaxP 和 Weight， 即 所 有 用 于 优化 能 力 函 数 (Bok E 5 E iR 44 te 

率 ) 的 套数。 通过 模拟 对 这 些 套数 的 性 能 进行 了 确认 ， 结果 表明 算法 对 这 些 参 效 

不 是 过 分 敏感 的 。 但 重要 的 是 要 记 住 。 所 有 分 析 和 模拟 都 是 以 网 络 工作 负载 的 特 

性 为 转移 的 。RED 真正 的 贡献 是 给 出 一 种 机 制 ， 通过 这 种 机 制 ， 路 由 器 可 以 更 精 

确 地 管理 它 的 队列 长 度 。 精 确 地 定义 构成 最 佳 队 列 长 度 的 因素 取决 于 通信 量 的 结 

合 ， 而 且 仍 是 当前 的 研究 主题 。 人 们 正在 收集 因特网 中 RED 操作 方案 的 实际 信息 . 

考虑 两 个 国 值 MaxThreshold 和 MinThreshold 的 设置 。 如 果 通 信 量 相当 大 . 那么 应 将 
MinThreshold 的 值 设置 得 足够 大 ， 使 链 路 的 利用 率 维 持 在 可 接受 的 高 级 别 上 ， 而 且 两 个 国 值 
的 差 值 应 大 于 在 一 个 RTT 中 算出 的 平均 队列 长 度 的 典型 增长 量 。 对 当今 因特网 已 知 的 通信 
量 结合 情况 ， 将 MaxThreshold 设置 为 MinThreshold 的 两 倍 看 来 是 合理 的 。 此 外 . 我 们 希望 
高 负载 期 间 平均 队列 的 长 度 徘 徊 在 两 个 阅 值 之 间 ， 应 有 多 于 MaxThreshold 的 足够 空闲 缓冲 
区 来 容纳 因特网 中 自然 产生 的 突 发 性 分 组 ， 从 而 避免 路 由 器 强迫 进入 队 尾 丢 弃 模式 。 

EARR. Weight 决定 动态 平均 低 通 滤波 器 的 时 间 第 量 ， 它 为 我 们 如 何 选择 一 
个 合适 的 Weight 提供 线索 。 回 想 RED 在 拥塞 期 间 通 过 丢弃 分 组 向 TCP 流 发 送信 号 的 情 
况 。 假 设 路 由 器 丢弃 了 来 自 某 一 连接 的 一 个 分 组 .然后 立即 转发 来 自 同 一 连接 的 更 多 的 分 
组 。 当 这 些 分 组 到 达 接 收 方 时 ， 接 收 方 开 始 向 发 送 方 发 出 重复 确认 。 当 发 送 方 看 到 足够 的 
重复 确认 后 ， 它 将 减少 其 窗口 尺寸 。 于 是 从 路 由 器 丢弃 一 个 分 组 开始 到 同一 路 由 各 减少 其 
窗口 尺 才 而 使 相关 连接 的 压力 有 所 减轻 为 止 ， 必 须 至 少 占 用 这 个 连接 的 一 次 往返 时 间 。 出 
现 路 由 器 对 拥塞 的 响应 时 间 远 小 于 通过 路 由 器 时 连接 的 往返 时 间 的 情况 可 能 并 不 多 .如 前 
面 指出 的 那样 ，100 ms 是 因特网 上 平均 往返 时 间 的 一 个 不 错 的 估计 值 。 因 此 Weight 应 该 
这 样 选择 : 能 滤 出 队列 长 度 在 时 间 上 远 小 于 100ms 的 变化 。 

由 于 RED 通过 给 TCP 流 发 信号 告知 它们 减速 的 机 制 工作 ， 因 此 你 可 能 会 想到 ， 如 果 
这 些 信号 被 匆 略 掉 了 会 出 现 什么 情况 ?这 通常 称 为 无 应 答 流 (unresponsive flow) 问题 . 
多 年 来 人 们 一 直 在 关注 这 个 问题 。 无 应 答 流 使 用 超出 自己 公平 份额 的 网 络 资源 ， 如 果 这 样 
的 流 足够 多 ,将 引起 拥塞 崩 淡 ， 就 像 在 对 TCP 进行 拥塞 控制 之 前 所 发 生 的 情况 一 样 。6.5 
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节 描 述 的 一 些 技术 通过 把 某 些 类 型 的 通信 量 与 其 他 通信 量 相 区 别 来 缓解 这 个 问题 。 也 可 能 
使 用 一 个 RED 的 变形 丢弃 更 多 对 它 所 发 送 的 初始 暗示 不 做 应 答 的 流 ， 这 将 依然 是 一 个 活 
BRAY Wt FE HB 


6.4.3 基于 源 的 拥塞 避免 


和 前 面 两 种 依赖 路 由 器 上 新 机 制 的 拥塞 避免 方案 不 同 ， 我 们 现在 描述 的 策略 是 从 终端 
主机 上 检测 拥塞 的 初始 阶段 (在 丢失 分 组 发 生前 )。 首 先 我 们 对 使 用 不 同 信息 检测 早期 拥 
塞 的 一 系列 相关 机 制 做 一 个 回顾 ， 然 后 再 详细 描述 一 种 特别 的 机 制 。 

这 些 技术 的 基本 思想 是 从 网 络 中 观察 这 样 的 一 些 迹 象 : 某 台 路 由 器 的 队列 正在 增加 ， 
如 果 不 采取 措施 很 快 会 发 生 拥塞 。 例如 ， 源 可 能 注意 到 随 着 网 络 中 路 由 器 分 组 队列 的 增 
大 ， 可 以 测量 到 它 发 送 的 每 个 后 继 分 组 的 RTT 都 会 有 增加 。 利 用 这 种 观察 的 一 个 特殊 算 
法 如 下 : 拥塞 窗口 的 正常 增长 就 像 在 TCP 中 那样 ， 但 是 每 隔 两 个 往返 时 间 延 迟 ， 算 法 检 
查 当前 的 RTT 是 否 大 于 迄今 为 止 所 测 到 的 最 大 和 最 小 RTT 的 平均 值 。 如 果 大 于 ， 那 么 算 
法 将 拥塞 窗口 减少 1/8。 

第 二 种 算法 与 上 一 种 相似 。 是 否 改 变 当 前 窗口 大 小 是 根据 RTT 和 窗口 大 小 两 个 因素 
的 变化 而 决定 的 。 每 隔 两 个 往返 时 间 延 迟 ， 根 据 以 下 乘积 将 窗口 调整 一 次 。 

(CurrentWindow— OldWindow) X (CurrentRTT— OIdRTT) 
若 结果 为 正 ， 源 将 窗口 值 减少 1/8; 如果 结 果 为 负 或 为 0， 源 将 窗口 值 增加 1 个 最 大 分 组 
KE. 注意 : 在 每 次 调整 期 间 窗 口 均 会 改变 ， 也 就 是 说 ， 它 围绕 最 佳 点 来 回 摆动 。 


相关 主题 

Tahoe、Reno 和 Vegas 

“TCP Vegas” 这 个 名 称 最 早出 现在 以 4.3 BSD Unix 各 种 版 本 发 布 的 TCP 实现 中 ， 
这 些 版 本 称 为 Tahoe 和 Reno (El Las Vegas 一 样 ，Tahoe 和 Reno 都 是 美国 内 华 达 州 的 地 
名 )， 同 时 了 TCP 的 版 本 也 因 BSD 版 本 而 知名 。TCP Tahoe 也 称 为 BSD 网 络 版 1.0 
(BNR1)， 对 应 于 Jacobson 的 拥塞 控制 机 制 的 最 初 实 现 ， 它 包括 6.3 节 中 描述 的 除 快 速 恢 
复 外 的 所 有 机 制 。TCP Reno 也 称 为 BSD 网 络 版 2.0 (BNR2)， 加 入 快速 恢复 机 制 ， 以 及 
一 种 称 为 分 组 首部 预测 Cheader prediction) 的 优化 措施 ， 用 于 优化 段 按 序 到 达 的 常见 情 
况 。TCP Reno 也 支持 延迟 确认 (delayed ACK) 一 一 隔 一 个 段 确认 一 次 而 不 是 每 个 段 确 
认 一 次 ， 但 这 是 可 选 的 ， 有 时 会 被 关闭 。 在 4.4BSD Unix 版 本 中 使 用 的 TCP 版 本 加 入 了 
5.2 节 所 述 的 “大 窗口 ”扩展 。 

从 Linux 操作 系统 日 益 普 及 和 研究 人 员 数 量 的 激增 来 看 TCP 拥塞 控制 ， 形 势 已 变 得 相当 
复杂 。Linux 提供 了 一 系列 TCP 拥塞 控制 设置 包括 Vegas 选项 和 默认 的 TCP 新 变种 CU- 
BIC 选项 。 用 地 名 来 命名 TCP 变种 已 成 为 风潮 (参见 TCP-lllinois 和 TCP-Westwood)。 

在 对 TCP 家 族 的 讨论 中 ， 应 提出 的 一 点 是 近 几 年 中 TCP 成 为 变化 很 多 的 协议 ， 尤 其 
在 拥塞 控制 机 制 方面 。 事实 上 ， 对 于 在 哪个 版 本 中 引进 哪 一 种 技术 ， 甚 至 无 法 完全 达成 一 
致 ， 这 是 考虑 了 代码 中 间 版 本 的 可 用 性 和 补丁 上 面 加 补丁 的 结果 。 

可 以 肯定 的 是 ， 任 意 两 个 遵循 最 初 规范 的 TCP 实现 尽管 应 该 能 互 操作 ， 但 不 一 定 执 
行 得 很 好 。 识 别 TCP 变种 间 互 操作 的 操作 含义 是 一 个 难题 。 换 句 话说， 你 可 以 认为 TCP 
不 再 用 规范 定义 ， 而 由 一 个 实现 来 定义 。 唯 一 的 问题 是 用 哪个 实现 ? 








Y 
dy 
Ky 


278 








随 着 网 络 接近 拥塞 ， 可 以 看 到 另 一 种 变化 : 发 送 速率 趋 于 平缓 。 第 三 种 方案 利用 了 这 
一 点 。 每 个 RTT 内 ， 它 将 窗口 大 小 增加 一 个 分 组 ， 同 时 将 获得 的 吞吐 量 与 加 一 个 分 组 前 
的 吞吐 量 进行 比较 。 如 果 它 们 的 差 小 于 只 有 一 个 分 组 传送 时 ( 即 和 刚 建立 连接 时 一 样 ) 所 
达到 的 吞吐 量 的 一 半 ， 那 么 算法 将 窗口 减 一 个 分 组 。 这 个 方案 通过 用 网 络 中 未 发 送 完 的 字 
节 数 除 以 RTT 的 值 来 计算 吞吐 量 。 第 四 种 机 制 ， 我 们 将 更 详细 地 说 明 ， 类 似 上 一 种 算法 ， 
它 注重 吞吐 量 的 改变 ， 更 具体 地 说 注重 发 送 速率 的 改变 。 但 和 第 三 种 算法 中 计算 吞吐 量 的 
方法 不 同 ， 它 不 查看 吞吐 量 坡度 的 变化 ， 而 是 将 测量 到 的 吞吐 量变 化 率 与 理想 的 否 叶 量变 
化 率 作 比较 。 这 种 算法 称 为 TCP Vegas， 虽 然 在 因特网 中 并 未 广泛 使 用 ， 但 这 种 算法 所 使 
用 的 策略 仍 在 继续 研究 中 。( 更 多 信息 请 参看 “扩展 阅读 ”,) 

从 图 6-18 中 给 出 的 标准 TCP 的 轨迹 中 可 直观 地 看 出 Vegas 算法 的 思路 。 (对 TCP 
Vegas 命名 的 解释 参见 相关 主题 “Tahoe、Reno 和 Vegas”.) 图 6-18 的 顶部 显示 连接 的 拥 
塞 窗 口 的 变化 ， 它 与 本 节 早 先 给 出 的 轨迹 表示 的 信息 相同 。 图 中 间 和 底部 描绘 了 新 的 信 
息 : 中 间 图 显示 在 源 上 测量 到 的 平均 发 送 速率 ， 底 部 图 显示 在 瓶颈 路 由 器 上 测 到 的 平均 队 
列 长 度 。 这 三 个 图 在 时 间 上 是 同步 的 。 在 4.5~6s 之 间 (阴影 部 分 )， 拥塞 窗口 增加 ( 顶 
部 图 ) 。 POL ENR S T EA 然而 吞吐 量 保持 平缓 (中 部 图 )。 这 是 因为 否 吐 
量 不 可 能 超过 可 用 的 带宽 。 若 超过 这 个 点 ， 窗 口 大 小 的 增加 只 会 导致 分 组 在 瓶颈 路 由 器 上 
占用 缓冲 空间 〈 底 部 图 ) 。 
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图 6-18 拥塞 窗口 与 观测 到 的 乔 吐 率 〈 三 幅 图 是 同步 的 )。 上 图 : 拥塞 窗口 : 中 图 ， 

观测 到 的 大 吐 量 ， 下 图 : 路 由 器 上 占用 的 缓冲 区 。 曲 线 一 拥塞 窗口 ; 黑 点 一 超时 ， 

细 线 标记 一 每 个 分 组 被 传送 的 时 刻 ， 竖 条 二 最 终 将 被 重 传 的 分 组 第 一 次 传送 的 时 刻 








路 由 器 中 的 队列 长 度 
ua 
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有 一 个 有 用 的 比喻 ， 说明 图 6-18 所 示 的 现象 是 在 冰 上 驾驶 。 里 程 表 (拥塞 窗口 ) 或 
许 告诉 你 当前 时 速 为 30 英里 /小 时 ， 但 从 车 窗 向 外 看 ， 人 们 是 以 步行 的 速度 〈 测 到 的 发 送 
速率 ) 通过 你 ， 你 才 得 知 你 的 时 速 最 多 5 英里 /小 时 。 额 外 的 能 量 被 汽车 轮胎 〈 路 由 器 组 
冲 区 ) 吸收 了 。 

TCP Vegas 用 这 种 思想 测量 和 控制 连接 正在 传送 的 额外 数据 量 ， 所 谓 “ 额 外 数据 ”， 
是 指 源 为 了 让 数据 量 与 当前 可 用 带宽 匹配 而 发 送 的 数据 ， 而 这 些 数 据 本 不 应 该 发 送 。TCP 
Vegas 的 目标 是 将 网 络 中 的 额外 数据 量 维持 在 “正常 的 ”标准 上 上。 显然 ， 者 源 正 在 发 送 的 
额外 数据 量 太 多 ， 则 会 引起 长 时 间 的 延迟 ， 并 可 能 导致 拥塞 。 其 次 ， 若 源 正 在 发 送 的 额外 
数据 过 少 ， 就 不 能 快速 响应 可 用 网 络 带宽 的 增长 。TCP Vegas 的 拥塞 避免 行为 除了 根据 丢 
弃 分 组 外 ， 还 根据 网 络 中 额外 数据 的 估计 值 的 变化 ， 现 在 我 们 详细 地 描述 算法 。 

首先 ， 定 义 一 个 指定 流 的 BaseRTT 为 流 无 拥塞 时 分 组 的 RIT 值 。 实 际 应 用 中 ，TCP 
Vegas 将 BaseRTT 设 为 所 有 测 得 的 往返 时 间 的 最 小 值 ， 它 通常 是 在 路 由 器 队 列 由 于 这 个 
流产 生 的 通信 和 量 而 增加 之 前 由 连接 发 送 的 第 一 个 分 组 的 RTT。 如 果 假 设 连接 尚未 溢出 ， 
则 所 期 望 的 吞吐 量 为 

ExpectedRate= Congestion Window/BaseRTT 

其 中 CongestionWindow 为 TCP 拥塞 窗口 ， 为 讨论 方便 ， 假 设 它 等 于 传送 中 的 字 节 数 。 

第 二 ，TCP Vegas 计算 当前 发 送 速率 ActualRate。 做 法 如 下 : 记录 一 个 不 同 分 组 的 发 送 时 
间 ， 记 下 从 发 送 该 分 组 到 收 到 确认 这 段 时 间 内 传送 的 字 节 数 ， 当 它 收 到 确认 信息 时 ， 计 算 该 分 
组 的 样本 RTT， 最 后 用 传送 字 节 数 除 以 样本 RTT。 上 述 计算 过 程 每 个 往返 时 间 内 执行 一 次 。 

第 三 ，TCP Vegas 比较 ActualRate 和 ExpectedRate， 并 相应 地 调整 窗口 。 邻 Diff= 
ExpectedRate— ActualRate。 注 意 按 照 定义 ，DIiff 的 值 应 大 于 或 等 于 0， 因为 ActualRate>œ>Ex- 
pectedRate 意味 着 需 将 BaseRTT 改变 为 最 近 采 样 的 RTT 值 。 再 定义 两 个 阅 值 a 三 8， 它们 
分 别 大 致 对 应 网 络 中 有 过 少 和 过 多 的 额外 数据 。 当 Diff<a 时 ，TCP Vegas 在 下 一 个 RTT 
中 线性 增加 拥塞 窗口 ， 而 当 Diff>pit, TCP Vegas 在 下 一 个 RTT 内 线性 减少 拥塞 窗口 。 
当 a<Diff<Bitt, TCP Vegas 保持 拥塞 窗口 不 变 。 

从 直观 上 我 们 可 以 看 出 ， 实 际 春 吐 量 和 期 望 乔 吐 量 的 差距 越 大 ， 网 络 中 的 拥塞 越 多 ， 
这 意味 着 发 送 速率 应 当下 降 。 由 浆 值 8 触发 窗口 减 小 。 另 一 方面 ， 当 实际 吞吐 量 与 期 望 吞 
吐 量 过 于 接近 时 ， 连 接 处 于 不 能 充分 利用 可 用 带宽 的 危险 中 。 这 时 章 值 a 触发 窗口 增加 。 
总 之 ,目标 就 是 将 网 络 中 的 额外 字 节 数 保持 在 a 和 B 之 间 。 

图 6-19 显示 了 TCP Vegas 拥 赛 避免 算法 的 过 程 。 上 图 描绘 拥塞 窗口 的 变化 过 程 ， 与 
本 草 给 出 的 否 吐 量 的 其 他 过 程 图 显示 相同 的 信息 。 下 图 显示 期 望 知 吐 率 和 实际 吞吐 率 ， 它 
们 控制 如 何 设置 拥塞 窗口 。 下 图 是 对 算法 工作 原理 的 最 好 说 明 ， 上 面 的 线 表 示 Expecte- 
dRate， 下 面 的 线 表 示 ActualRate， 宽 的 阴影 带 表 示 赣 值 c 和 8 之 间 的 区 域 ， 阴影 带 的 顶 
部 线 与 ExpectedRate 相距 aKBps， 阴 影 带 的 底部 与 ExpectedRate 相距 8BKBps。 目 标 是 将 
ActualRate 保持 在 两 个 闪 值 之 间 ， 也 就 是 在 阴影 区 域内 。 当 ActualRate 在 阴影 区 之 下 
( 即 离 ExpectedRate 太 远 ) 时 ，TCP Vegas 减少 拥塞 窗口 以 免 在 网 络 中 缓存 太 多 的 分 组 。 
同样 ， 当 ActualRate 在 阴影 区 域 之 上 ( 即 离 ExpectedRate 太 近 ) 时 ，TCP Vegas 增加 拥 
蹇 窗口 以 免 网 络 不 能 被 充分 利用 。 

如 上 所 述 ， 因 为 算法 将 实际 吞吐 率 与 期 望 乔 吐 率 之 间 的 差 和 闽 值 < 与 8 比较 ， 所 以 这 
两 个 国 值 是 通过 KBps 定义 的 。 但 若 通过 网 络 中 一 个 连接 占用 多 少 额 外 的 缓冲 区 定义 或 许 
更 为 准确 。 例 如 ， 某 个 连接 的 BaseRTT 为 100ms， 一 个 分 组 长 度 为 IKB, # a= 30KBps 
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图 6-19 TCP Vegas 拥塞 避免 机 制 的 图 示 。 上 图 ; 拥塞 窗口 
下 图 : 期 望 春 吐 量 (上 面 的 线 ) 和 实际 春 吐 量 ANR). 
阴影 区 是 在 和 8 阅 值 中 间 的 区 域 


和 BB 二 60KBps， 那 么 我 们 可 认为 a 说明 连 接 在 网 络 中 至 少 应 占用 三 个 额外 缓冲 区 ， 而 8 说 
明 连 接 在 网 络 中 占用 的 额外 缓冲 区 应 不 超过 六 个 。 在 实际 应 用 中 ， 将 a 设 为 一 个 缓冲 区 和 
将 B 设 为 三 个 缓冲 区 较 好 。 

最 后 ， 你 会 发 现 TCP Vegas 线性 减少 拥塞 窗口 ， 看 起 来 似乎 与 需要 成 倍 减 少 以 确保 
稳定 性 的 规则 冲突 。 对 此 的 解释 是 ，TCP Vegas 在 发 生 超 时 时 确实 会 使 用 成 倍 减少 ， 而 刚 
描述 的 线性 减少 应 该 是 发 生 在 拥塞 出 现 和 分 组 开始 被 丢弃 之 前 的 拥塞 窗口 中 的 及 早 减 少 。 


相关 主题 

评价 一 种 新 的 拥塞 控制 机 制 

假设 你 要 开发 一 种 新 的 拥塞 控制 机 制 并 且 想 评估 它 的 性 能 。 例 如 ， 你 或 许 想 将 它 与 当 
前 用 于 因特网 的 机 制 进行 比较 。 如 何 测量 和 评估 你 的 机 制 ? 尽管 曾 有 一 段 时 间 因 特 网 的 主 
要 目的 是 支持 网 络 研究 ， 但 是 现在 它 已 成 为 一 个 大 型 的 实用 网 ， 因 此 完全 不 适 于 进行 一 项 
控制 机 制 的 实验 。 

如 果 你 的 方法 是 纯粹 端 到 端的 ， 即 假设 因特网 中 只 有 FIFO 路 由 器 ， 那 么 在 几 台 主机 

上 运行 拥塞 机 制 并 测量 连接 能 获得 的 吞吐 量 是 可 能 实现 的 。 但 是 在 这 里 我 们 要 加 上 一 个 警 
告 。 发 明 一 个 拥塞 控制 机 制 极其 容易 ， 它 可 以 获得 5 倍 于 因特网 的 TCP 吞吐 量 。 你 能 以 
很 高 的 速率 简单 地 一 下 把 大 量 的 分 组 放 入 因特网 ， 并 由 此 引发 拥塞 。 所 有 运行 TCP 的 其 
他 主机 检测 到 这 一 拥塞 并 降低 它们 发 送 分 组 的 速率 。 然 后 你 的 机 制 就 可 以 开心 地 占用 所 有 
带宽 。 这 种 策略 很 快 ， 但 是 它 一 点 都 不 公平 。 

直接 在 因特网 上 做 实验 ， 即 使 非常 小 心 ， 也 会 因 你 的 拥塞 控制 机 制 涉 及 改变 路 由 器 而 
使 实验 失败 。 为 了 评估 一 种 新 的 拥塞 控制 算法 而 改变 运行 在 成 千 上 万 台 路 由 器 上 的 软件 是 
完全 不 实际 的 。 在 这 种 情况 下 ， 网 络 设计 者 被 迪 在 模拟 网 络 或 私 用 测试 网 络 上 测试 他 们 的 
系统 。 例 如 ， 本 章 中 用 到 的 TCP 轨迹 是 由 运行 在 网 络 模拟 器 上 的 TCP 应 用 程序 产生 的 。 
无 论 是 用 模拟 器 还 是 用 测试 平台 ， 提 出 一 个 代表 真实 因特网 中 的 拓扑 结构 和 通信 量 的 典型 
实例 都 是 一 项 挑战 。 














6.5 服务 质量 

多 年 以 来 ， 分 组 交换 网 一 直 许 诺 要 支持 多 媒体 应 用 程序 ， 即 结合 音频 、 视 频 和 数据 的 
应 用 程序 。 音 频 和 视频 信息 一 旦 数字 化 .终归 要 像 其 他 数据 格式 一 样 作为 比特 流传 输 。 要 
求 高 带宽 的 链 路 一 直 是 实现 这 一 许诺 的 障碍 。 然 而 ,近来 编码 技术 的 发 展 降低 了 音频 和 视 
频 应 用 程序 对 带宽 的 要 求 ， 同时 链 路 的 速度 也 提高 了 。 

然而 要 在 网 络 上 传输 音频 和 视频 ， 除 了 提供 足够 的 带宽 外 ， 还 有 更 多 的 事情 要 做 。 例 
如 ， 电 话 中 的 谈话 双方 希望 能 够 这 样 交谈 : 一 个 人 既 能 回答 对 方 的 说 话 又 能 让 对 方 立即 听 
到 自己 的 说 话 。 这样， 传输 的 及 时 性 就 非常 重要 。 我 们 称 对 数据 的 及 时 性 敏感 的 应 用 程序 
为 实时 应 用 程序 (real-time application)。 音 频 和 视频 应 用 程序 就 是 典型 的 例子 ， 但 是 还 有 
其 他 的 例子 ， 如 工业 控制 你 想 使 发 送 给 机 器 人 手臂 的 一 条 命令 在 它 撞 向 某 物体 之 前 到 
达 。 甚至 文件 传输 应 用 程序 也 可 能 有 及 时 性 的 限制 ， 例 如 有 这 样 的 需求 ， 第 二 天 要 用 数 
据 ， 应 在 头 一 天 晚上 将 数据 库 中 的 更 新 全 部 完成 。 

关于 实时 应 用 程序 的 一 个 显著 特点 是 : 它们 需要 来 自 网 络 的 某 种 保证 . 即 数据 可 以 按 
时 (用 某 种 “按时 ”定义 ) 到 达 。 反之. 非 实 时 应 用 能 够 使 用 端 到 端 重 传 策略 来 确保 数据 
正确 到 达 ， 这 种 策略 不 能 提供 及 时 性 : 如 果 数 据 较 晚 到 达 . 重 传 只 是 增加 了 总 延迟 。 及 时 
到 达 必 须 由 网 络 本 身 (路 由 器 ) 提供 ， 而 不 是 在 网 络 边缘 (主机 ) 提供 。 因 此 我 们 得 出 结 
论 ， 尽力 服务 模型 对 于 实时 应 用 程序 来 说 是 不 够 的 这 种 模型 试 着 传输 数据 但 不 做 任何 许 
诺 ， 并 将 清除 操作 留 给 边缘 。 我 们 需要 的 是 一 种 新 的 服务 模型 ， 其 中 应 用 程序 可 以 向 网 络 
要 求 更 高 的 保证 。 然后 网 络 可 能 通过 提供 它 会 做 得 更 好 的 保证 或 者 说 明 不 能 比 此 刻 做 得 更 
好 做 出 响应 。 注意， 这 样 一 个 服务 模型 是 当前 模型 的 超 集 : 在 尽力 而 为 服务 下 运行 很 好 的 
应 用 程序 应 该 能 够 使 用 新 的 服务 模型 ， 它 们 的 需求 不 太 严 格 。 这 意味 着 网 络 将 区 别 对 待 一 
些 分 组 ， 这 是 在 尽力 而 为 服务 模型 中 没有 做 的 。 对 于 提供 不 同 级 别 服务 的 网 络 ， 经 常 被 说 
成 是 支持 服务 质量 (QoS) 的 。 

此 刻 你 或 许 疑 虑 “互联 网 还 没有 支持 实时 应 用 程序 吗 ?” 我 们 多 数 尝试 过 像 Skype 这 
样 的 网 络 电 话 应 用 ， 它 运转 正常 的 原因 一 部 分 是 尽力 而 为 服务 时 常 运行 得 很 好 。 (Skype 
公司 还 特别 做 了 一 些 聪明 的 事情 ， 试 图 解决 互联 网 中 缺乏 的 QoS.) 这 里 的 关键 词 是 “时 
和 常 ”。 如 果 你 震 要 实时 应 用 程序 使 用 的 服务 足够 可 靠 ， 那 么 尽力 而 为 服务 〈 它 不 作 任 何 保 
证 ) 并 不 够 可 靠 。 我 们 稍 后 会 探讨 QoS 的 必要 性 。 


6.5.1 应 用 需求 


在 考虑 用 于 给 应 用 程序 提供 服务 质量 的 各 种 协议 和 机 制 之 前 ， 我 们 先 试图 了 解 这 些 应 
用 程序 需要 什么 。 首 先 我 们 把 应 用 程序 分 为 两 类 ， 实时 的 和 非 实时 的 。 后 者 有 时 称 为 传统 
教 据 (traditional data) 应 用 程序 ， 因 为 在 传统 的 数据 网 络 上 它们 一 直 是 主要 的 应 用 程序 ， 
包括 大 多 数 流行 的 应 用 程序 ， 如 Telnet, FTP, email, Web 浏览 ， 等 等 。 这 些 应 用 程序 
不 需要 保证 数据 的 实时 传输 也 能 正常 运行 。 非 实时 类 应 用 程序 的 另 一 个 术语 是 弹性 Celas- 
tic) ， 因 为 当 它们 面临 延迟 增加 时 ， 能 有 很 好 的 伸展 余地 。 注意， 这些 应 用 程序 能 够 从 更 
短 的 延迟 中 获 益 ， 而 当 延 迟 增加 时 它们 也 不 会 变 得 不 可 用 。 还 要 注意 ,它们 的 延迟 要 求 从 
像 Telnet 这 样 的 交互 式 应 用 变化 到 像 email 一 样 更 加 异步 的 应 用 ， 中 间 有 像 FTP 这 样 的 
交互 式 大 容量 传输 。 


282 FPE 





1. 实时 音频 实例 

作为 实时 应 用 程序 的 一 个 具体 例子 ， 考 虑 类 似 于 图 6-20 所 示 的 一 个 音频 应 用 程序 
通过 从 麦克 风采 样 而 生成 数据 ， 并 且 用 模 数 (A 一 D) 转换 器 将 它们 数字 化 。 将 数字 样本 
放 在 分 组 中 ， 分 组 是 通过 网 络 传输 的 ， 在 另 一 端 接收 分 组 ， 接 收 主机 必须 以 适当 的 速率 揪 
放 (playback) 数据 。 例 如 ， 如 果 语 音 样本 是 以 每 125ps 的 速率 被 收集 的 ， 那么 应 该 以 相 
同 的 速率 对 它们 进行 播放 。 这 样 ， 我 们 可 以 认为 每 个 样本 都 有 一 个 特定 的 播放 时 刻 (play- 
back time): 在 接收 主机 上 恰好 需要 在 这 个 时 刻 来 播放 。 在 这 个 语音 的 例子 中 ， 每 个 样本 
的 播放 时 刻 比 前 一 个 样本 晚 125ns。 如 果 数 据 在 它 相 应 的 回放 时 刻 之 后 到 达 ， 无 论 是 因为 
在 网 络 延 迟 ， 还 是 因为 被 丢弃 并 重 传 ， 它 基本 上 都 是 无 用 的 。 实 时 应 用 程序 的 特点 是 迟到 
的 数据 会 完全 失去 价值 。 在 弹性 应 用 程序 中 ， 如 果 数 据 按时 到 达 可 能 会 很 好 ， 但 如 果 不 是 
这 样 我 们 仍然 能 使 用 它 。 


图 6-20 一 个 音频 应 用 





使 我 们 的 语音 应 用 程序 能 工作 的 一 种 方法 是 ， 确 保 所 有 样本 用 完全 相同 的 时 间 通 过 网 
络 。 那么， 由 于 样本 以 每 125ps 一 个 的 速率 输入 ， 所 以 它们 将 以 相同 的 速率 出 现在 接收 
端 ， 为 播放 做 好 准备 。 然 而 ， 通 常 很 难保 证 所 有 通过 分 组 交换 网 络 的 样本 恰好 经 历 相同 的 
延迟 。 分 组 遇 到 交换 机 或 路 由 器 中 的 队列 ， 这 些 队 列 的 长 度 随 着 时 间 而 变化 ， 这 意味 着 延 
迟 趋向 于 随时 间 而 变化 ， 结 果 是 音频 流 中 每 个 分 组 的 延迟 都 可 能 不 同 。 在 接收 方 处 理 这 一 
问题 的 方法 是 缓存 一 定量 的 预备 数据 ， 因 此 总 是 为 等 待 在 正常 时 刻 播放 的 分 组 提供 存储 。 
如 果 一 个 分 组 延迟 很 短 一 段 时 间 ， 那 么 它 会 进入 缓冲 区 直到 它 的 播放 时 刻 到 来 。 如 果 它 延 
迟 很 长 时 间 ， 那 么 在 播放 之 前 ， 它 不 需要 在 接收 方 的 缓冲 区 中 存储 很 长 时 间 。 这 样 ， 我 们 
已 经 有 效 地 给 所 有 分 组 的 播放 时 间 增加 了 一 个 常数 偏 移 量 作为 一 种 保证 方式 。 我 们 称 这 个 
偏 移 量 为 播放 点 (playback point) 。 我 们 遇 到 的 唯一 的 麻烦 是 ， 如 果 分 组 在 网 络 中 延迟 了 
过 长 的 时 间 以 至 于 它们 在 其 播放 时 刻 之 后 才 到 达 ， 这 将 使 得 播放 缓冲 区 被 用 尽 。 

播放 缓冲 区 的 操作 如 图 6-21 所 示 。 左 边 的 斜 线 表 明 以 固定 速率 产生 的 分 组 。 波 浪 线 
表明 分 组 什么 时 候 到 达 ， 即 它们 被 发 送 后 的 时 间 变化 量 ， 取决 于 网 络 中 实际 情况 。 右 边 的 
斜 线 表明 在 进入 播放 缓冲 区 一 段 时 间 之 后 以 
固定 速率 播放 的 分 组 。 只 要 播放 线 在 时 间 轴 分 组 
上 足够 靠 右 ， 应 用 程序 就 绝 不 会 注意 到 网 络 J BY / 
延迟 的 变化 量 。 然 而 ， 如 果 我 们 将 播放 线 向 LZ 
左 移动 一 点 ， 那 么 一 些 分 组 将 会 由 于 到 达 太 从 $ we 
晚 而 变 得 无 用 。 AER | 

对 于 音频 应 用 程序 ， 我 们 能 对 播放 数据 y 
延迟 多 久 设置 限制 。 如 果 你 说 话 的 时 刻 与 你 |/ 
的 听众 听 到 的 时 刻 之 间 超 过 300ms， 那 么 谈话 时 间 
就 很 难 继续 下 去 。 因 此 ， 这 种 情况 下 我 们 想 图 6-21 回放 缓冲 区 
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从 网 络 得 到 的 保证 是 我 们 的 所 有 数据 在 300ms 之 内 到 达 。 如 果 数 据 早 到 达 ， 我 们 将 它 放 到 组 
冲 区 直到 恰当 的 播放 时 刻 到 来 青 播放 它 。 如 果 数 据 晚 到 ， 那 么 它 对 我 们 没有 用 而 必须 将 它 丢 弃 。 

为 更 好 地 评价 网 络 延 迟 是 怎样 变化 的 ， 图 6-22 显示 了 某 一 天 的 一 段 时 间 里 在 因特网 
的 某 条 路 径 上 测量 到 的 单 向 延迟 。 尽 管 确切 的 数值 会 随 路 径 和 日 期 有 所 变化 ,但 是 这 里 的 
关键 因素 是 延迟 的 可 变性 ， 它 在 任何 路 径 上 的 任何 时 间 里 都 可 以 看 得 到 。 正 如 图 上 部 的 累 
积 百 分 比 所 表示 的 ，97% 的 分 组 有 100ms 或 小 于 100ms 的 延迟 。 这 意味 着 如 果 我 们 的 音 
频 应 用 实例 把 播放 点 设 在 100ms， 那 么 平均 说 来 ， 每 100 个 分 组 中 有 三 个 分 组 将 因 到 达 太 
晚 而 变 得 无 用 。 关于 此 图 要 注意 的 重要 一 点 是 曲线 的 尾部 〈 即 它 向 右 延 伸 的 长 度 ) 非常 
长 .我 们 必须 把 播放 点 设 在 200ms 以 确保 所 有 分 组 及 时 到 达 。 
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图 6-22 一 个 因特网 连接 延迟 分 布 的 例子 


2. 实时 应 用 分 类 

至 此 我 们 对 实时 应 用 如 何 工 作 有 了 一 个 具体 的 认识 ， 接 下 来 可 以 看 看 一 些 不 同类 型 的 
应 用 ,它们 能 帮助 我 们 进一步 认识 服务 模型 。 下 面 的 分 类 方法 大 部 分 要 归功 于 Clark, 
Braden, Shenker fil Zhang 的 工作 ， 他 们 有 关 这 一 问题 的 文章 可 以 在 本 章 的 “扩展 阅读 ” 
中 找到 。 在 图 6-23 中 总 结 了 应 用 的 分 类 。 

我 们 所 依据 的 第 一 个 对 应 用 程序 进行 分 类 的 特性 是 它们 对 丢失 数据 的 容忍 度 ， 其 中 发 
生 “ 丢 失 ” 可 能 是 由 于 一 个 分 组 到 达 太 晚 而 不 能 播放 ， 或 是 由 于 网 络 中 正常 的 原因 引起 
的 。 一 方面 ， 一 个 丢失 的 音频 样本 可 以 根据 周围 的 样本 插值 ， 这 对 感觉 到 的 音频 质量 只 有 
很 小 的 影响 。 仅 当 越 来 越 多 的 样本 丢失 应 用 
时 ,质量 会 下 降 到 使 语音 变 得 不 可 理解 
的 程度 。 男 一 方面 ， 机 器 人 控制 程序 可 


能 是 一 个 不 能 容忍 委 失 的 实时 应 用 的 例 “弹性 型 实时 型 
子 一 丢失 了 包含 在 指示 机 器 人 手臂 售 
止 命令 中 的 分 组 是 不 能 接受 的 。 这 样 ， 非 容忍 型 容忍 型 


我 们 就 能 根据 实时 应 用 是 否 能 够 容忍 偶 
尔 的 丢失 ,把 它们 分 成 容忍 型 (toler 
ant) 或 非 容 忍 型 (intolerant)。( 附 带 指 
出 ， 注 意 许多 实时 应 用 比 非 实时 应 用 更 
能 忍受 偶然 的 丢失 。 例如， 将 我 们 的 音 速率 可 适应 型 延迟 可 适应 型 
频 应 用 和 FTP 进行 比较 ,文件 中 一 位 不 图 6-23 应 用 分 类 


非 自 适应 型 自 适应 型 
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正确 的 丢失 就 可 能 使 整个 文件 变 得 完全 无 用 ,) 

第 二 种 方法 是 根据 适应 性 对 实时 应 用 进行 分 类 。 例 如， 一 个 音频 应 用 可 能 适应 分 组 通 
过 网 络 时 经 历 的 延迟 量 。 如 果 注 意 到 分 组 几乎 总 是 在 发 送 后 300ms 之 内 到 达 . 那么 就 能 相 
应 地 设置 播放 点 ， 给 少 于 300ms 到 达 的 分 组 分 配 缓冲 区 。 假 设 随 后 看 到 所 有 分 组 部 是 在 发 
Kia 100ms 之 内 到 达 。 如 果 把 播放 点 提前 到 100ms. 那么 应 用 的 用 户 可 能 感觉 到 改进 。 这 
个 改变 播放 点 的 过 程 实际 上 需要 我 们 在 某 段 时 间 之 内 以 递增 的 速率 将 样本 播放 完 。 对 于 语 
音 应 用 程序 ， 只 是 通过 缩短 单词 间 的 无 声 时 间 ， 就 能 以 一 种 勉强 可 理解 的 方式 做 到 这 一 
点 。 于 是 ， 在 这 种 情况 下 ， 播 放 点 调整 就 相当 容易 ， 并且 在 几 个 语音 应 用 程序 中 已 经 被 有 
效 地 实现 ， 例 如 像 vat 这 样 的 音频 电话 会 议程 序 。 注意 , 播放 点 调整 能 够 在 任 一 方向 上 发 
生 ， 但 是 实际 上 这 样 做 会 使 调整 期 间 被 播放 的 信号 失真 ， 并 且 这 种 失真 的 影响 将 在 很 大 程 
度 上 取决 于 终端 用 户 怎样 使 用 数据 。 通常 ， 非 容忍 型 应 用 不 能 容忍 这 种 失真 .就 像 它 们 不 
能 容忍 分 组 的 丢失 一 样 。 

观察 一 下 ， 如 果 依 据 所 有 分 组 将 在 100ms 之 内 到 达 的 假设 设置 我 们 的 播放 点 ， 就 会 发 
现 一 些 分 组 稍 晚 一 些 到 达 ， 我 们 就 不 得 不 丢弃 它 ， 而 如 果 把 播放 点 保留 在 300ms， 就 不 必 
丢弃 它们 。 这 样 ， 只 有 当 它 具有 明显 的 优点 . 并 且 有 证 据 表 明 迟 到 分 组 的 数目 小 到 能 被 接 
受 的 程度 时 ， 才 可 以 把 播放 点 提前 。 当 有 观察 到 的 近期 历史 记录 或 有 来 自 于 网 络 的 某 种 保 
证 ， 就 可 以 这 样 做 。 

我 们 称 能 够 调节 播放 点 的 应 用 为 延迟 可 适应 的 (delay-adaptive) MAY. 另 一 类 可 适应 
的 应 用 是 速率 可 适应 的 (rate-adaptive) 应 用 。 例 如 ,许多 视频 编码 算法 能 够 权衡 比特 速 
率 与 质量 。 这 样 ， 如 果 发 现 网 络 能 够 支持 某 一 带宽 ， 就 能 相应 地 设置 编码 参数 。 如 果 以 后 
有 了 更 多 的 可 用 带宽 ， 则 可 以 改变 参数 以 提高 质量 a 

3. 支持 QoS 的 方法 

考虑 到 各 种 应 用 需求 的 广阔 空间 ， 我们 所 需要 的 是 一 个 应 用 范围 更 广 的 服务 模型 ， 以 
满足 任何 一 种 应 用 需求 。 这 促使 我 们 提出 一 个 服务 模型 ， 不仅 提 供 一 种 类 型 的 服务 《尽力 
而 为 服务 )， 而 是 具有 多 类 服务 ， 其 中 的 每 一 类 都 能 满足 某 个 应 用 集合 的 需求 。 为 了 达到 
这 个 目标 ， 我 们 现在 准备 考察 人 们 为 了 提供 一 定 范围 的 服务 质量 而 开发 出 来 的 一 些 方法 : 
这 些 方 法 可 以 分 为 两 大 类 : 

。 细 粒 度 (fine-grained) 方法 ， 它 给 单独 的 应 用 程序 或 流 提供 QoS, 

。 粗 粒 度 (coarse-grained) 方法 ， 它 给 多 类 数据 或 成 块 通信 量 提 供 QoS. 

在 第 一 类 里 我 们 发 现 综合 服务 (Jntegrated Services)， 一 种 IETF 开发 的 QoS 体系 结 
构 ， 常 常 与 资源 预定 协议 (Resource Reservation Protocol. RSVP) 相关 。ATM 的 QoS 
方法 也 届 于 这 一 类 . 第 二 类 中 有 区 别 服务 (Differentiated Services). 写本 书 的 时 候 ， 它 可 
能 是 最 广泛 配置 的 QoS 机 制 。 接 下 来 的 两 节 我 们 将 依次 讨论 它们 。 

最 后 ， 正 如 本 节 的 开端 所 述 ， 给 网 络 中 增加 QoS 支持 对 于 实时 应 用 程序 来 说 并 不 是 
必须 的 。 作 为 讨论 的 结束 语 ， 我 们 再 回 到 这 个 问题 ， 在 不 依赖 于 广泛 使 用 的 QoS 机 制 
(如 综合 服务 或 区 分 服务 ) 的 情况 下 ， 为 了 更 好 地 支持 实时 流 ， 端 主机 可 能 做 什么 。 


6.5.2 综合 服务 (RSVP) -= 
术语 综合 服务 (常常 简称 为 IntServ) 是 指 在 1995 一 1997 年 前 后 由 IETF 所 做 的 主要 


O 参见 “实验 十 二 ”。 








工作 。IntServ 工作 组 开发 了 大 量 的 服务 类 (service classes) 规范 来 满足 上 述 一 些 应 用 类 
别 的 需要 。 它 还 定义 了 如 何 利 用 RSVP 通过 这 些 服务 类 来 做 预定 。 下 面 概 要 地 介绍 这 些 规 
范 及 实现 它们 所 用 的 机 制 。 


1. 服务 类 
有 一 个 服务 类 是 为 非 容 忍 型 应 用 设计 的 。 这 些 应 用 要 求 分 组 永远 不 推迟 到 达 ， 网 络 应 
该 保证 任意 分 组 所 经 历 的 最 大 延迟 具有 某 一 特定 值 ， 这 样 应 用 程序 就 能 设 定 它 的 播放 点 ， 


以 便 没 有 分 组 会 在 它 的 播放 时 刻 之 后 到 达 。 我 们 假设 总 能 通过 缓存 方法 处 理 早 到 的 分 组 。 
这 种 服务 通常 称 为 有 保证 的 〈guaranteed) 服务 。 

除了 有 保证 的 服务 ，IETF 还 考虑 了 其 他 几 种 服务 ,但 最 终 确定 了 一 种 满足 容忍 型 、 
可 适应 型 应 用 需求 的 服务 。 这 种 服务 称 为 受 控 负载 (controlled load)， 它 的 产生 是 因为 我 
们 观察 到 现存 的 这 种 类 型 的 应 用 在 负载 不 重 的 网 络 中 运行 得 相当 好 。 例 如 ， 音 频 应 用 程序 
vat， 随 着 网 络 延 迟 的 变化 调整 它 的 播放 点 ， 只 要 丢失 率 保持 在 小 于 或 等 于 10% 的 水 平 ， 
就 能 产生 相当 好 的 音频 质量 。 

受 控 负载 服务 的 目的 是 为 请 求 这 种 服务 的 应 用 仿真 一 个 轻 负 载 的 网 络 ， 即 使 网 络 作为 
一 个 整体 的 实际 负载 可 能 是 很 重 的 。 它 的 技巧 在 于 使 用 像 WFQ ( 见 6.2 节 ) 这 样 的 排队 
机 制 将 受 控 负 载 通 信 量 和 其 他 通信 量 分 开 ， 同 时 使 用 某 种 容许 控制 的 形式 来 限制 一 条 链 路 
上 受 控 负载 通信 量 的 总 量 ， 从 而 保持 合理 的 低 负载 。 下 面 我 们 更 详细 地 讨论 容许 控制 。 

显然 ， 这 两 种 服务 类 型 只 是 可 能 提供 的 所 有 服务 类 型 的 一 个 子 集 。 事 实 上 ， 其 他 服务 
从 未 标准 化 为 IETEF 工作 的 一 部 分 。 迄 今 ， 上 述 两 个 服务 〈 包 括 传统 的 尽力 而 为 服务 ) 已 
被 证 明 足 够 灵活 ， 可 满足 广泛 的 应 用 需求 。 

2. 机 制 概述 

既然 我 们 已 经 用 几 个 新 的 服务 类 扩充 了 尽力 而 为 服务 模型 ， 下 一 个 问题 就 是 怎样 实现 
能 给 应 用 提供 这 些 服务 的 网 络 。 本 节 概 括 其 关键 机 制 ， 阅 读本 节 时 要 记 住 ， 所 描述 的 机 制 
仍 有 待 因特网 设计 团体 进行 认真 的 推 殴 ， 这 里 只 是 对 上 面 概括 的 支持 服务 模型 涉及 的 各 个 
部 分 做 一 个 总 体 的 讨论 。 

首先 ， 尽 力 而 为 服务 只 能 告诉 网 络 我 们 想 让 分 组 去 哪里 并 把 它 留 在 那里 ， 而 实时 服务 
更 多 的 是 告诉 网 络 一 些 关 于 我 们 所 要 求 服务 的 类 型 信息 。 我 们 可 以 给 它 定 性 信息 ， 如 “使 
用 受 控 负 和 载 服 务 ”"， 或 定量 信息 ， 如 “我 需要 的 最 大 延迟 为 100ms”。 除 了 描述 我 们 想 要 的 
服务 类 型 ， 还 需要 告诉 网 络 我 们 打算 将 什么 注入 网 络 ， 因 为 低 带 宽 应 用 比 高 带宽 应 用 需要 
更 少 的 网 络 资源 。 我们 提供 给 网 络 的 信息 的 集合 称 为 流 说 明 (flowspec)。 这 个 名 字 来 自 于 
这 样 的 想法 : 与 单一 的 应 用 相 联系 的 并 具备 共同 需求 的 分 组 集合 称 为 流 (flow)， 这 与 6.1 
节 中 所 用 的 术语 相 一 致 。 

第 二 ， 当 我 们 请 求 网 络 提供 一 个 特殊 的 服务 时 ， 网 络 需要 判断 实际 上 它 是 否 能 够 提供 
该 服务 。 例 如 ， 如 果 LO 个 用 户 请 求 一 个 服务 ， 其 中 每 个 用 户 将 持续 使 用 2Mbps 的 链 路 容 
量 ， 而 且 所 有 用 户 都 共享 一 条 10Mbps 容量 的 链 路 ， 那 么 网 络 就 不 得 不 拒绝 某 些 用 户 。 决 
定 何 时 拒绝 的 进程 称 为 容许 控制 (admission control) 。 

第 三 ， 我 们 需要 一 种 机 制 ， 通 过 这 种 机 制 网 络 用 户 与 网 络 自身 的 组 件 之 间 互 相交 换 信 
息 ， 如 请 求 服务 、 流 说 明和 容许 控制 的 决定 。 这 在 ATM 中 称 为 信 令 〈signalling)， 但 由 
于 这 个 词 有 多 种 含义 ， 我 们 称 这 个 进程 为 资源 预定 (resource reservation), ， 通 过 资源 预定 
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协议 来 完成 。 

最 后 ， 当 已 经 描述 流 和 它们 的 需求 并 且 也 做 出 了 容许 控制 的 决定 时 ， 网 络 交 换 机 和 路 
由 吉 需 要 满足 流 的 需求 。 对 于 在 交换 机 和 路 由 需 中 的 传输 ， 满 足 这 些 震 求 的 关键 部 分 是 管 
理 分 组 排队 和 调度 的 方式 。 这 个 最 后 的 机 制 是 分 组 调度 (packet scheduling) 。 

3. 流 说 明 

可 将 流 说 明 分 为 两 个 部 分 : 描述 流 的 通信 量 特 性 的 部 分 CT Spec) 和 描述 向 网 络 要 求 
的 服务 部 分 (RSpec)。RSpec 是 一 种 特有 的 服务 ， 并且 相对 来 说 容易 描述 ， 例如， 对 于 受 
控 负 载 服务 ，RSpec 是 很 平常 的 : 应 用 程序 要 求 受 控 负 载 服务 时 只 要 求 不 附加 人 参数。 对 于 
有 保证 的 服务 ， 你 能 够 指定 延迟 目标 或 界限 . (在 IETF 有 保证 的 服务 的 规范 中 ， 你 指定 
的 不 是 延迟 而 是 男 一 个 用 来 计算 延迟 的 量 。) 

TSpec 要 复杂 一 些 。 正如 上 面 的 例子 所 表明 的 ， 需 要 给 网 络 提供 关于 流 所 使 用 的 带 交 
的 足够 信息 ， 以 允许 做 出 智能 的 容许 控制 决定 。 然 而 ， 对 于 大 部 分 应 用 ， 带宽 不 仅仅 是 一 
个 数字 ， 它 是 一 个 不 断 变化 的 东西 。 例如， 一 个 视频 应 用 在 场景 快速 变化 时 比 静 止 时 每 秘 
产生 更 多 的 比特 。 下 面 的 例子 表明 ， 只 知道 长 期 平均 带宽 是 不 够 的 。 假 设 我 们 有 10 个 流 
到 达 独 立 输入 端口 上 的 交换 机 且 都 留 在 同一 个 10Mbps 链 路 上 。 假 设 经 过 某 一 合适 的 时 间 
间隔 ， 每 个 流 预期 能 够 发 送 不 超过 1Mbps 的 数据 。 你 可 能 以 为 这 没有 出 现 问 题 。 然而， 
如 果 这 些 是 像 压 缩 视频 这 样 的 可 变 比 特 速率 的 应 用 . 那么 它们 的 发 送 速率 偶尔 会 高 于 平均 
速率 。 如 果 足 够 的 源 端 以 高 于 它们 的 平均 速率 发 送 ， 那 么 数据 到 达 交 换 机 的 总 速率 将 大 于 
10Mbps。 这 种 额外 的 数据 在 发 送 到 链 路 上 之 前 会 被 放 在 队列 中 。 这 种 情况 持续 越久 ， A 
列 就 会 越 长 。 分 组 可 能 不 得 不 被 丢弃 ， 而 且 即 便 没 有 分 组 丢弃 ， 位 于 队列 中 的 数据 也 会 延 
迟 。 如 果 分 组 被 延迟 的 时 间 足 够 长 ， 那 么 将 不 能 提供 所 请 求 的 服务 . 

下 面 我 们 讨论 的 是 如 何 准确 地 管理 队列 ， 以 控制 延迟 和 避免 丢弃 分 组 。 然 而 ， 这 里 要 
注意 ， 我 们 需要 知道 源 端的 带宽 怎样 随 着 时 间 而 改变 。 一 种 描述 源 端 带宽 特性 的 方法 称 为 
令 牌 桶 (token bucket) 过 滤器 。 这 种 过 滤器 由 两 个 参数 描述 : 令 息 速率 x 和 桶 深度 B. 
它 的 工作 过 程 如 下 。 为 了 能 够 发 送 一 个 字 节 ， 必须 有 一 个 令 牌 。 为 了 发 送 长 度 为 n 的 分 
组 ， 就 需要 个 令 牌 。 开 始 没有 令 牌 ， 然 后 以 每 秒 的 速度 累积 令 牌 . ARH SMR 
过 已 个 。 这 意味 着 ， 能 够 以 尽 可 能 快 的 速度 向 网 络 连 续 发 送 召 个 字 节 ， 但 是 经 过 足够 长 
的 时 间 间 隔 ， 每 秒 发 送 的 字 节 就 不 能 超过 个。 结果 表明 ， 当 试图 指出 它 是 否 能 接纳 一 个 
新 的 服务 请 求 时 ， 这 个 信息 对 于 容许 控制 算法 是 非常 有 帮助 的 。 

图 6-24 说 明了 令 牌 桶 怎样 刻画 流 的 带宽 需求 。 为 简单 
起 见 ， 假 设 每 个 流 能 够 按 单独 的 字 节 而 不 是 按 分 组 发 送 数 
据 。 流 A 以 1MBps 的 稳定 速率 产生 数据 ， 因 此 可 以 用 速 
率 r 二 1MBps 和 桶 深 为 1 字 节 的 令 牌 柄 过 滤器 来 描述 它 。 
这 意味 着 流 A 以 1MBps 的 速率 接收 令 牌 ， 但 它 存储 的 令 
牌 不 能 多 于 1 个 一 一 它 立 即将 它们 用 掉 。 流 BB 也 长 期 以 平 
均 1MBps 的 速率 发 送 ， 但 它 是 以 0. 5MBps 的 速率 发 送 2s， | 
然后 以 2MBps 的 速率 发 送 ls。 因 为 令 牌 桶 速率 7 在 某 种 意 lL Bintan 3 4 
义 上 是 一 个 长 期 的 平均 速率 ， 所 以 流 也 能 够 用 速率 为 
IMBps 的 令 牌 桶 来 描述 。 然 而 ， 与 流 A 不 同 , 流 也 至 少 需 KOA 有 具有 相同 平均 速率 和 不 同 
要 1MB 的 桶 深 B， 使 它 在 以 2MBps 发 送 时 能 够 使 用 以 小 全 牌 柄 描述 的 两 个 流 
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于 MBps 的 速率 发 送 时 储存 起 来 的 令 牌 。 在 本 例 中 的 前 2s. ELA 1MBps 的 速率 接收 令 牌 ， 
但 却 仅仅 以 0.5MBps 的 速率 来 消耗 ， 所 以 它 能 够 储存 2X0.5 二 1MB 的 令 牌 ， 然 后 在 第 三 秒 
以 2MBps 的 速率 发 送 时 消耗 它们 (以 及 在 这 1s 中 继续 增加 的 新 令 牌 )。 第 三 秒 结束 时 ， 它 已 
经 消耗 了 额外 的 令 牌 又 以 0.5MBps 的 速率 发 送 ， 再 次 开始 储存 令 牌 。 

值得 注意 的 是 单个 流 能 够 用 许多 不 同 的 令 牌 桶 描述 。 作 为 一 个 小 例子 , 流 A 能 够 用 与 
流 B 相同 的 令 牌 桶 描述 , A BRA 1MBps 的 速率 和 1MB 的 桶 深 。 它 实际 上 从 不 需要 累积 
令 牌 .这 一 事实 并 没有 使 它 成 为 一 个 不 准确 的 描述 ， 但 这 确实 意味 着 我 们 没有 向 网 络 传达 
一 些 有 用 的 信息 一 一 实际 上 流 A 与 它 的 带宽 需求 高 度 一 致 。 总 的 来 说 ， 应 用 的 带宽 需求 越 
清楚 越 好 ， 这样 可 以 防止 网 络 资源 的 过 度 分 配 。 

4. 容许 控制 

容许 控制 的 思想 很 简单 : 假设 给 定 当 前 的 可 用 资源 ， 当 某 个 新 的 流 想 要 接收 一 个 特殊 
级 别 的 服务 上 时， 容许 控制 查看 流 的 TSpec 和 RSpec， 并 试图 确定 所 要 求 的 服务 是 否 能 得 到 
所 需 数量 的 通信 和 量 ， 在 当前 可 利用 的 资源 条 件 下 ， 不 会 使 任何 前 面 被 容许 的 流 接收 到 比 它 
所 要 求 的 更 差 的 服务 。 如 果 它 能 够 提供 服务 ， 则 流 被 容许 ; 否则 被 拒绝 。 难 点 在 于 指出 何 
时 说 是 何 时 说 否 。 

容许 控制 完全 依赖 于 请 求 服 务 的 类 型 和 路 由 器 中 使 用 的 排队 规则 ， 在 本 节 的 后 面 将 讨 
论 后 一 个 问题 。 对 于 有 保证 的 服务 ， 你 需要 用 一 个 好 算法 做 出 明确 的 是 / 否 容许 的 决定 。 
如 果 每 台 路 由 需 都 使 用 6. 2 节 讨 论 的 加 权 公平 排队 法 ,决定 将 是 相当 容易 的 。 对 于 受 控 负 
载 服务 ， 决 定 可 能 基于 试探 法 ， 例 如 “上 次 我 允许 带 有 这 一 TSpec 的 流 进入 这 个 类 ， 该 类 
的 延迟 超出 了 可 接受 的 界限 ， 所 以 我 最 好 说 否 ” 或 者 “我 当前 的 延迟 离 界 限 还 很 远 ， 我 容 
许 另 一 个 流 应 该 不 会 有 困难 ”。 

容许 控制 不 应 该 与 策略 制定 (policing) 相 混 少 。 前 者 是 对 每 个 新 的 流 做 出 的 是 否 容 
许 的 决定 。 后 者 是 应 用 在 每 一 个 分 组 基础 上 的 功能 ， 保 证 一 个 流 与 用 于 实现 预定 的 TSpec 
相 一 致 。 如 果 一 个 流 与 它 的 TSpec 不 一 致 一 一 例如 ， 它 每 秒 发 送 的 字 节 是 它 所 说 要 发 送 字 
节 的 两 倍 一 一 那么 ， 这 很 可 能 十 扰 向 其 他 流 提 供 的 服务 ， 而 且 必须 进行 改正 。 有 多 种 改正 
方式 ， 显 然 可 以 丢弃 违规 的 分 组 。 然 而 ， 男 一 种 方式 是 检验 分 组 是 否 真 的 干扰 其 他 流 的 服 
务 。 如 果 它 们 不 干扰 ， 就 将 分 组 加 标记 后 继续 发 送 ， 标 记 为 “这 是 一 个 不 一 致 的 分 组 ， 如 
果 你 需要 丢弃 分 组 ， 先 丢弃 它 。” 

容许 控制 与 策略 (policy) 这 一 重要 问题 密切 相关 。 例 如 ， 网 络 管理 员 可 能 希望 允许 
其 公司 的 首席 执行 官 所 做 的 预定 被 接纳 ， 而 下 层 雇 员 所 做 的 预定 被 拒绝 。 当 然 ， 如 果 首 席 
执行 官 请 求 的 资源 不 可 用 ， 那么 他 的 预定 请 求 也 可 能 失败 ， 所 以 我 们 看 出 ， 当 做 出 容许 控 
制 的 决定 时 ， 规 则 和 资源 可 用 性 问题 可 能 都 是 需要 考虑 的 。 在 写本 书 时 ， 互 联网 技术 中 策 
略 的 应 用 正成 为 一 个 备 受 关注 的 领域 。 

5. 预定 协议 

虽然 面向 连接 的 网 络 总 需要 某 种 创建 协议 以 便 在 交换 机 中 建立 必要 的 虚 电 路 状态 ， 但 
是 像 因特网 这 种 无 连接 的 网 络 就 没有 这 种 协议 。 然 而 ， 正 如 本 节 所 指出 的 ， 当 我 们 想 从 网 
络 中 获得 实时 服务 时 ， 我 们 需要 向 它 提 供 更 多 的 信息 。 尽 管 已 经 为 因特网 提出 了 大 量 的 创 
建 协议 ， 但 当前 最 受 关注 的 是 RSVP。 它 格外 吸引 人 ， 因 为 它 与 传统 的 面向 连接 网 络 的 信 
令 协议 本 质 上 被 然 不 同 。 
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基础 RSVP 的 一 个 关键 假设 是 ， 它 不 应 该 损害 在 当今 无 连接 网 络 的 健壮 性 。 因 为 无 连 
接 的 网 络 很 少 或 不 依赖 于 网 络 本 身 存储 的 状态 .所 以 在 端 到 端的 连接 依然 保持 的 情况 下 . 
路 由 器 前 溃 或 重启 以 及 链 路 通 或 断 都 是 可 能 的 。RSVP 试图 通过 在 路 由 器 中 使 用 软 状 碟 
(soft state) 的 思想 来 维持 这 种 健壮 性 。 当 不 再 需要 软 状 态 〈 相 对 于 面向 连接 网 络 中 的 硬 
状态 ) 时 ， 不 需要 明确 地 删除 它们 。 相 反 ， 如果 它 没有 被 周期 性 刷新 . 那么 就 会 在 某 个 相 
当 短 的 时 间 (如 1 分钟) 后 超时 。 我 们 将 在 后 面 看 到 这 怎样 有 助 于 健壮 性 ， 

RSVP 的 男 一 个 重要 特性 是 支持 多 播 流 ， 使 其 像 单 播 流 一 样 有 效 。 这 并 不 奇怪 ， 因 为 
多 播 应 用 (如 vat 和 vic) 显然 是 较 早 受益 于 实时 服务 的 应 用 。RSVP 设计 者 观察 到 多 播 应 
用 的 接收 方 比 发 送 方 多 得 多 ， 典 型 的 例子 是 只 有 一 个 讲演 者 和 大 量 听 众 的 演讲 . 并 且 . 接 
收 方 可 能 有 不 同 的 需求 。 例 如 ， 一 个 接收 方 可 能 想 要 接收 仅 来 自 一 个 发 送 方 的 数据 ， 而 其 
他 接收 方 可 能 想 接收 来 自 所 有 发 送 方 的 数据 。 与 其 让 发 送 方 记录 潜在 的 大 量 接收 方 ， 不 如 
让 接收 方 记录 它们 自己 的 需要 更 有 意义 。 这 就 意味 着 RSVP 采用 面向 接收 (receiver-ori 
ented) 的 方法 。 与 之 相反 ， 面 向 连接 的 网 络 通 常 将 资源 预定 留 给 发 送 方 . 正如 在 电话 网 
中 ,一 般 情况 下 是 由 打 电 话 的 人 引发 资源 分 配 的 . 

RSVP 的 软 状态 和 面向 接收 的 性 质 给 予 它 许多 良好 的 特性 ， 特 性 之 一 是 非常 直接 地 增 
加 或 减少 提供 给 接收 方 的 资源 分 配 级 别 。 由 于 每 个 接收 方 定期 发 送 刷 新 消息 以 保持 相称 的 
软 状 态 ， 所 以 很 容易 发 送 一 个 请 求 新 级 别 资源 的 新 的 预定 。 此 外 ， 软 状态 可 以 从 容 地 处 理 
网 络 或 节点 的 潜在 故障 。 万 一 主机 崩 演 ， 主 机 分 配给 一 个 流 的 资源 会 自然 地 超时 并 释放 
为 了 看 出 在 路 由 器 或 链 路 失败 时 会 发 生 什么 ， 我们 需要 仔细 研究 进行 预定 的 机 制 . 

首先 ， 考 虑 一 个 发 送 方 和 一 个 接收 方 试图 为 它们 之 间 的 通信 和 量 获 得 预定 的 情况 。 在 接 
收 方 能 够 进行 预定 之 前 需要 发 生 两 件 事 。 第 一 ， 接 收 方 需要 知道 发 送 方 可 能 发 送 的 通信 
量 ， 以 便 能 够 进行 相应 的 预定 。 即 它 需 要 知道 发 送 方 的 TSpec。 第 二 ， 它 需要 知道 分 组 从 
发 送 方 到 接收 方 遵 循 什么 路 径 ， 以 便 能 在 路 径 上 的 每 台 路 由 费 建 立 一 个 资源 预定 。 可 以 通 
过 从 发 送 方 向 包含 TSpec 的 接收 方 发 送 一 条 消息 来 满足 这 两 个 需求 . 显然 ， 这 将 TSpec 给 
了 接收 方 。 所 发 生 的 另 一 件 事 是 当 这 条 消息 ( 称 为 PATH 消息 ) HUN. 每 台 路 由 器 查看 
它 ， 并 确定 反 向 路 径 (reverse path) ， 用 于 在 尝试 获得 路 径 中 每 台 路 由 器 预定 的 过 程 中 ， 发 
送 从 接收 方 返回 给 发 送 方 的 预定 。 建 立 多 播 树 首先 是 通过 在 4. 2 节 中 描述 的 机 制 实现 的 。 

收 到 PATH 消息 后 ， 接 收 方 对 RESV 消息 中 的 多 播 树 向 上 发 回 一 个 预定 。 这 条 消息 
包含 发 送 方 的 TSpec 和 描述 接收 方 请 求 的 RSpec。 路 径 上 的 每 台 路 由 器 查看 预定 请 求 并 分 
配 必要 的 资源 来 满足 它 。 如 果 可 以 做 预定 ,那么 RESV 请 求 被 传 给 下 一 台 路 由 器 。 如 果 不 
能 ， 则 向 发 出 请 求 的 接收 方 返回 一 个 出 错 消息 。 如 果 一 切 正常 ， 那 么 就 在 发 送 方 和 接收 方 
之 间 的 每 台 路 由 器 上 安装 了 正确 的 预定 。 只 要 接收 方 想 保留 预定 ， 它 就 大 约 每 30s 发 送 一 
次 相同 的 RESV 消息 。 

现在 我 们 可 以 看 看 当 路 由 器 或 链 路 失败 时 会 发 生 什 么 。 路 由 选择 协议 将 适应 这 种 失败 
并 生成 一 条 从 发 送 方 到 接收 方 的 新 路 径 。PATH 消息 大 约 每 30s 发 送 一 次 ， 如 果 路 由 器 在 
它 的 转发 表 中 检测 到 有 变化 发 生 ， 可 能 还 会 更 快 地 发 送 一 个 PATH 消息 ， 因 此 新 路 由 稳 
定 后 的 第 一 个 PATH 消息 将 通过 新 路 径 到 达 接 收 方 。 接 收 方 的 下 一 个 RESV 消息 将 遵循 
新 的 路 径 ， 如 果 一 切 顺利 ， 接 着 在 新 的 路 径 上 建立 新 的 预定 。 同时， 不 在 新 路 径 上 的 路 由 
器 将 停止 获得 RESV 消息 ， 并 且 它 们 的 预定 将 超时 并 释放 。 这 样 只 要 路 由 变化 不 过 于 频 
Z, RSVP 就 能 很 好 地 处 理 拓扑 结构 中 的 变化 。 
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我 们 需要 考虑 的 下 一 件 事 是 怎样 处 理 多 播 ， 其 中 可 能 有 多 个 发 送 方 组 成 一 个 组 并 有 多 
个 接收 方 。 图 6-25 说 明了 这 种 情况 。 首 先 ， 让 我 们 处 理 对 一 个 发 送 方 的 多 个 接收 方 。 当 
一 个 RESV 消息 对 多 播 树 向 上 传 时 ,很 可 能 磁 上 树 的 一 个 其 他 接收 方 已 经 建立 的 预定 。 可 
能 有 这 样 的 情况 : 这 一 点 的 上 游 所 预定 的 资源 足以 为 这 两 个 接收 方 服务 。 例 如 ， 如 果 接 收 
方 A 已 经 为 小 于 100ms 的 有 保证 的 延迟 进行 了 预定 ， 并 且 来 自 接收 方 B 的 新 的 请 求 是 小 
于 200ms 的 延迟 ， 那 么 就 不 需要 新 的 预定 。 另 一 方面 ， 如 果 新 的 请 求 是 小 于 50ms 的 延 
B. 那么 路 由 融 将 首先 需要 看 一 看 它 是 否 能 够 接受 这 个 请 求 ， 如 果 能 ， 则 再 向 上 游 发 送 请 
求 。 下 次 接收 方 A 请 求 最 小 值 为 100ms 的 延迟 ， 路 由 器 就 不 需要 传递 这 个 请 求 。 一 般 说 
来 ， 可 以 以 这 种 方式 合并 预定 以 满足 合并 点 下 游 的 所 有 接收 方 的 需要 。 





| 





图 6-25 在 一 个 多 播 树 上 进行 预定 


如 果树 上 还 有 多 个 发 送 方 ， 那 么 接收 方 需 要 收集 所 有 发 送 方 的 TSpec， 并 进行 足够 大 
的 预 留 以 容纳 所 有 发 送 方 的 通信 量 。 然 而 ， 这 可 能 并 不 意味 着 需要 把 TSpec 累加 起 来 。 例 
如 ， 在 一 个 10 人 的 音频 会 议 中 ， 并 不 是 多 点 分 配 足 够 资源 来 传送 10 个 音频 流 ， 因 为 10 
个 人 同时 讲话 的 结果 是 不 能 理解 的 。 这 样 ， 我 们 能 够 设想 一 个 足以 容纳 最 多 两 个 讲话 者 的 
预定 。 从 所 有 发 送 方 的 TSpec 计算 出 正确 的 总 的 TSpec， 显 然 要 根据 具体 应 用 而 有 所 不 
同 。 而 且 ， 我 们 可 能 只 有 兴趣 听 到 所 有 可 能 讲话 者 中 一 部 分 人 的 话 。RSVP 在 处 理 下 列 选 
项 时 有 不 同 的 预定 “风格 ”: “为 所 有 讲话 者 预定 资源 ”，“ 为 任意 个 讲话 者 预定 资源 ”， 
“只 为 讲话 者 A 和 B 预定 资源 ”。 

6. 分 组 的 分 类 和 调度 

一 且 我 们 已 经 描述 了 通信 和 量 和 想 要 的 网 络 服务 并 且 为 路 径 上 的 所 有 路 由 器 安装 了 合适 
的 预定 ， 路 由 器 便 只 剩 下 一 件 工作 一 一 向 数据 分 组 实际 提供 所 要 求 的 服务 。 其 中 需要 做 两 
部 分 工作 

。 将 每 个 分 组 与 适当 的 预定 相关 联 以 便 正确 处 理 它 ， 这 个 进程 称 为 分 类 (classifying) 分 组 。 

。 管理 队列 中 的 分 组 以 便 它 们 能 接收 所 要 求 的 服务 ， 这 个 进程 称 为 分 组 调度 (scheduling)。 

第 一 部 分 是 通过 检查 分 组 中 的 最 多 5 个 字段 〈 源 地 址 、 目 的 地 址 、 协 议 号 、 源 端口 和 
目的 端口 ) 进行 的 。( 在 IPv6 中 ， 分 组 首部 中 的 FlowLabel 字段 可 能 用 于 根据 一 个 较 短 关 


Ke 


290 B63 








键 字 进行 查找 .) 根据 该 信息 ， 能 够 将 分 组 放 在 适当 的 类 中 。 例如， 它 可 能 被 归 类 到 受 控 
负载 的 各 个 类 中 ,或 者 可 能 是 需要 独立 于 所 有 其 他 有 保证 的 流 而 单独 处 理 的 有 保证 流 的 一 
部 分 。 简 而 言 之 ， 存 在 一 个 从 分 组 首部 中 流 说 明 信 息 到 一 个 确定 如 何在 队列 中 处 理 分 组 的 
类 标识 符 的 映射 。 对 于 有 保证 的 流 ， 这 可 能 是 一 个 一 对 一 的 映射 ， 而 对 于 其 他 服务 ， 它 可 
能 是 多 对 一 的 映射 。 分 类 的 细节 与 队列 管理 细节 紧密 相关 。 

应 该 明确 ， 路 由 器 中 像 FIFO 队列 这 样 简单 的 排队 机 制 不 足以 提供 许多 不 同 的 服务 和 
每 个 服务 中 不 同 级 别 的 延迟 。6. 2 节 讨 论 了 几 个 更 复杂 的 队列 管理 规则 ， 而 且 它 们 的 某 种 
组 合 很 可 能 用 在 路 由 器 中 。 

理想 状况 下 ， 分 组 调度 的 细节 不 应 该 在 服务 模型 中 说 明 。 相反 ,这 是 实现 者 能 够 尝试 
进行 创造 性 活动 以 有 效 实 现 服 务 模型 的 一 个 领域 。 在 有 保 TEMAS OOH F 已 经 可 以 使 加 
权 公 平 排队 规则 (其 中 共享 链 路 一 定 份额 的 每 个 流 都 有 自己 单独 的 队列 ) 提供 一 个 容易 计 
算 的 有 保证 的 端 到 端 延迟 界限 。 对 于 受 控 负 载 ， 可 以 使 用 更 简单 的 方案 。 一 种 可 能 性 包 
H: 把 所 有 受 控 负 载 通信 量 看 作 单个 聚集 的 流 〈 就 涉及 的 调度 机 制 而 论 )， 该 流 的 权 值 可 
以 根据 可 控 负 载 中 允许 的 通信 息 量 来 设置 。 如 果 你 在 一 台 路 由 器 中 考虑 它 ， 这 个 问题 就 更 
困难 ， 许 多 不 同 的 服务 很 可 能 以 并 发 的 方式 提供 ， 这 些 服 务 的 每 一 个 服务 都 可 能 需要 一 个 
不 同 的 调度 算法 。 这 样 ， 需 要 用 某 个 综合 的 队列 调度 算法 管理 不 同 服务 之 间 的 资源 。 


它们 现在 在 哪 ? 

RSVP 和 综合 服务 配置 

在 本 书写 作 时 ，RSVP 和 综合 服务 体系 结构 并 没有 被 广泛 配置 ， Dd KTR 
所 描述 的 可 扩展 性 问题 。 实 际 上 ， 它 被 认为 是 一 种 “ 死 ” 的 技术 。 然 认为 RSVP 
合 服务 已 经 死亡 却 为 时 过 早 

与 IntServ 分 离开 ， 作 为 一 个 为 流量 工程 (正如 4.3 节 中 的 描述 ) 建立 MPLS 路 径 的 
协议 ，RSVP 已 经 被 广泛 配置 了 。 由 于 该 原因 ， 因 特 网 中 的 大 多 数 路 由 器 有 一 些 RSVP 实 
现 。 然 而 ， 这 可 能 是 在 本 书写 作 时 因特网 中 RSVP 配置 的 全 部 内 容 。 对 RSVP 的 这 种 使 用 
方式 完全 独立 于 IntServ， 但 它 至 少 说 明 协 议 本 身 是 可 配置 的 。 

有 证 据 表明 RSVP 和 IntServ 在 它们 首次 提出 后 10 年 多 的 时 间 里 可 能 得 到 一 次 新 的 广 
泛 应 用 的 机 会 。 例 如 ，IETF 正在 对 RSVP 进行 标准 化 扩展 ， 以 便 使 其 支持 集合 预定 - 

在 过 去 RSVP 和 Intserv 的 扩展 性 已 经 提升 了 。 在 商业 产品 中 RSVP 作为 一 个 资源 预定 协 
议 正 在 逐渐 得 到 支持 。 

多 种 因素 会 导致 RSVP 和 IntServ 在 不 久 的 将 来 被 更 多 地 和 采纳。 首先 ， 需 要 QoS 的 应 
用 ， 例 如 IP 上 的 语音 、 实 时 视频 会 议和 娱乐 视频 ， 比 10 年 前 要 广泛 得 多 ， 因 此 就 更 需要 
复杂 的 QoS 机 制 。 第 二 ， 容 许 控制 一 一 使 得 当 资 源 不 足 时 网 络 能 够 对 应 用 程序 说 
“不 ”一 一 对 于 除非 资源 足够 否则 不 能 很 好 运行 的 应 用 程序 来 说 是 一 个 好 的 机 制 。 例 如 ， 
大 部 分 IP 电话 用 户 宁可 听 到 忙 信 号 ， 也 不 愿意 进行 无 法 接受 的 坏 质量 的 呼叫 。 网 络 操作 
者 宁可 给 一 个 用 户 发 送 一 个 忙 信 号 ， 也 不 愿意 给 大 量 用 户 提供 差 的 质量 。 第 三 个 因素 是 新 
应 用 程序 的 大 量 资 源 需求 ， 例 如 高 精度 的 视频 传输 ， 因 为 它们 需要 高 带宽 才能 工作 好 ， 因 
此 去 建立 偶尔 能 说 “不 的 网 络 比 提供 足够 带宽 去 满足 所 有 可 能 的 应 用 需求 具有 更 高 的 性 
价 比 。 然 而 这 是 一 个 复杂 的 平衡 ， 关 于 容许 控制 的 价值 ， 以 及 将 RSVP 和 IntServ 作为 工 
具 来 提供 的 争论 可 能 会 持续 一 些 时 间 。 


和 综 
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7. 可 扩展 性 问题 

虽然 综合 服务 体系 结构 和 RSVP 象征 着 IP 的 尽力 而 为 服务 模型 的 重大 发 展 ， 但 是 因 
特 网 服务 提供 商 们 觉得 这 并 不 是 他 们 想 要 采用 的 正确 模型 。 这 种 保留 和 IP 基本 的 设计 目 
的 之 一 〈 即 可 扩展 性 ) 有 关 。 在 尽力 而 为 服务 模型 中 ， 因 特 网 中 的 路 由 器 几乎 或 根本 不 存 
储 任何 流 经 它们 的 各 个 流 的 状态 。 这 样 ， 随 着 因特网 的 增长 ， 路 由 器 要 跟 上 这 种 增长 所 需 
做 的 唯一 事情 就 是 每 秒 传送 更 多 的 比特 和 处 理 更 大 的 路 由 表 。 但 是 RSVP 增 大 通过 路 由 器 
的 每 个 流 要 做 相应 预定 的 可 能 性 。 为 了 理解 这 个 问题 的 严重 性 ， 假 设 在 一 条 OC- 48 
(2.5Gbps) 的 链 路 上 的 每 个 流 都 是 64kbps 的 音频 流 。 这 样 的 流 的 数量 为 

2. 5X 10°/64 X 103=39 000 

这 些 预 定 中 的 每 一 个 都 需要 某 个 量 的 状态 ， 这 些 状 态 存储 在 内 存 中 ， 并 且 定 时 刷新 。 
路 由 器 需要 对 其 中 的 每 个 流 进行 分 类 、 控 制 和 排队 。 每 当 这 样 的 流 请 求 一 个 预定 时 ， 就 需 
要 做 一 次 容许 控制 决定 。 而 且 需 要 一 些 “ 拒 绝 ” 用 户 的 机 制 ， 使 他 们 不 能 做 长 时 间 的 任意 
大 的 预定 © 

在 写本 书 时 ， 可 扩展 性 涉及 的 这 些 问 题 已 经 阻碍 了 综合 服务 的 广泛 采用 。 由 于 这 些 问 
题 ， 人 们 已 经 开发 了 不 需要 做 这 么 多 “每 个 流 ” 状 态 的 其 他 方法 。 下 一 节 将 讨论 一 些 这 样 
的 方法 。 


6.5.3 区 分 服务 (EF, AF)” 


综合 服务 体系 结构 给 单独 的 流 分 配 资源 ， 而 区 分 服务 模型 〈 常 常 简称 为 DiffServ) 给 
少数 几 类 通信 和 量 分 配 资源 。 实 际 上 , 已 经 提出 的 几 个 区 分 服务 方法 简单 地 把 通信 和 量 分 为 两 
类 。 这 是 一 个 非常 明智 的 方法 : 如 果 你 考虑 一 下 网 络 操 作 员 在 试图 保持 尽力 而 为 服务 在 互 
联网 平稳 运行 方面 的 困难 ， 那 么 在 服务 模型 上 做 少量 增加 是 有 意义 的 。 

假设 我 们 决定 通过 仅 增 加 一 个 称 之 为 “加 价 ” 的 新 类 来 改进 尽力 而 为 服务 模型 。 显 
然 ， 我 们 需要 一 些 方法 指出 哪些 分 组 是 加 价 分 组 ， 哪 些 分 组 是 常规 的 尽力 而 为 服务 类 型 。 
与 其 让 RSVP 这 样 的 协议 来 告诉 所 有 路 由 器 某 一 个 流 正在 发 送 加 价 分 组 ， 不 如 只 让 这 些 分 
组 在 到 达 时 向 路 由 器 表明 身份 ， 这 样 要 简单 得 多 。 当 然 ， 通 过 使 用 分 组 首部 的 1 位 就 可 以 
做 到 : 如 果 这 一 位 设置 为 1， 表 示 分 组 是 加 价 分 组 ; 如果 为 0， 表示 分 组 是 尽力 而 为 服务 
类 型 。 记 住 这 一 点 ， 需 要 解决 两 个 问题 : 

。 谁 设置 加 价位 ? 在 什么 环境 下 设置 ? 

。 当 路 由 需 看 到 设置 该 位 的 分 组 时 ， 做 哪些 不 同 的 处 理 ? 

对 第 一 个 问题 有 许多 可 能 的 回答 ,但 最 常用 的 方法 是 在 管理 的 边界 设置 这 一 位 。 例 
如 ， 在 一 个 因特网 服务 提供 商 的 网 络 边缘 的 路 由 器 可 能 对 与 某 一 特定 公司 网 络 相 连 的 接口 
上 到 达 的 分 组 设置 这 一 位 。 因 特 网 服务 提供 商 可 能 这 样 做 是 因为 ， 这 个 公司 已 经 为 比 尽力 
而 为 服务 更 高 级 别 的 服务 付费 。 也 可 能 并 不 是 所 有 分 组 都 被 标识 为 加 价 ， 例 如 ， 可 以 配置 
路 由 需 ， 让 其 将 分 组 标识 为 加 价 直至 某 一 最 大 速度 ， 同 时 使 所 有 额外 分 组 都 保持 尽力 而 为 
服务 。 





后 “为 每 个 预定 付费 是 “拒绝 ”用 户 的 一 种 方法 ， 这 与 针对 每 次 呼叫 来 付费 的 电话 模型 是 类 型 的 。 这 不 是 “拒绝 ” 
用 户 的 唯一 方法 ， 为 每 个 呼叫 付费 是 电话 网 络 中 的 主要 计 费 方式 。 
O 参见 “实验 附录 B”, 





假设 分 组 已 经 用 某 种 方法 进行 标识 ， 那 么 路 由 器 将 如 何 处 理 遇 到 的 标识 过 的 分 组 y》 这 
里 又 有 很 多 答案 。 实 际 上 ，IETF 的 区 分 服务 工作 组 正在 对 一 系列 应 用 于 标识 分 组 的 路 由 
器 行为 进行 标准 化 。 它 们 被 称 为 每 跳 行 为 (PerHop Behaviors，PHB)， 这 个 术语 表明 它 
定义 的 是 单 台 路 由 器 的 行为 而 不 是 端 到 端 服务 的 行为 。 因 为 新 行为 不 止 一 个 ， 所 以 在 分 组 
首部 中 需要 不 止 一 位 来 告诉 路 由 器 用 哪个 行为 。IETF 已 经 决定 从 IP 首部 中 去 掉 还 未 广泛 
使 用 的 TOS 字 节 ， 并 重新 定义 它 。 这 个 字 节 中 的 6 位 已 分 配给 区 分 服务 代码 指针 (Diff- 
Serv Code Points, DSCP)， 其 中 每 个 DSCP 是 一 个 6 位 的 值 ， 标 识 用 于 一 个 分 组 的 特定 
PHB, (ECN 使 用 其 余 2 位 ， 参 见 6.4.2 节 。) 

1. 加 速 转发 (EF) PHB 

要 说 明 的 最 简单 的 PHB 之 一 是 加 速 转发 (Expedited Forwarding，EF)。 对 标识 为 
EF 分 组 的 处 理应 当 是 路 由 器 以 最 少 的 延迟 和 丢失 转发 。 使 路 由 器 能 向 所 有 EF 分 组 都 保 
证 这 点 的 唯一 方法 是 : 严格 限制 EF 分 组 到 达 路 由 器 的 速率 小 于 路 由 器 转发 EF 分 组 的 速 
率 。 例 如 ， 有 100Mbps 接口 的 路 由 器 需要 确保 目标 为 该 接口 的 EF 分 组 的 到 达 速 率 绝 不 超 
过 100Mbps。 可 能 还 需要 确保 这 个 速率 比 100Mbps 稍 低 一 些 ， 以 便 路 由 硕 还 可 以 偶尔 有 
时 间 发 送 其 他 分 组 (如 路 由 更 新 )。 

通过 在 管理 域 的 边界 上 配置 路 由 器 ， 容 许 进入 域 中 的 EF 分 组 达到 某 一 最 大 速率 ， 可 
以 获得 对 EF 分 组 的 速率 限制 。 一 个 虽然 保守 但 简单 的 方法 是 ,确保 进入 域 中 的 所 有 EF 
分 组 的 速率 的 和 低 于 域 中 最 慢 链 路 的 带宽 。 这 就 能 确保 即使 在 最 糟 的 情况 下 (所 有 EF 分 
组 都 集中 在 最 低速 的 链 路 上 ) 也 不 会 超载 ， 同 时 能 提供 正确 的 行为 。 

对 于 EF 行为 ， 有 几 个 可 能 的 实现 策略 。 一 个 策略 就 是 给 EF 分 组 赋予 严格 高 于 其 他 
所 有 分 组 的 优先 级 。 另 一 个 策略 是 在 EF 分 组 和 其 他 分 组 之 间 执 行 加 权 平 均 排队 ， 将 EF 
的 权 值 设置 得 足够 大 ， 使 所 有 EF 分 组 可 以 快速 传输 。 比 起 严格 的 优先 级 ， 这 种 方法 有 一 
个 优点 : 即使 在 EF 通信 量 过 多 的 情况 下 ， 仍 可 以 确保 非 EF 分 组 获得 一 定 的 链 路 访问 : 
这 可 能 意味 着 EF 分 组 不 能 准确 地 获得 指定 的 行为 ， 但 是 它 能 在 EF 通信 量 过 载 时 ， 防 止 
基本 的 路 由 通信 量 被 阻止 在 网 络 之 外 。 

2. 确保 转发 (AF) PHB 

确保 转发 (Assured Forwarding, AF) 基于 界 内 界外 RED (RED with In and Out, RIO) 
或 加 权 RED 方法 。 这 两 种 方法 是 对 6. 4.2 节 中 基本 RED 算法 的 改进 。 图 6-26 显示 了 RIO 是 
如 何 工作 的 ， 和 图 6-17 一 样 ， 我 们 看 到 随 着 PER) 

轴 上 平均 队列 长 度 的 增加 ，y 轴 上 的 丢弃 概率 

也 增加 。 但 是 现在 ， 对 于 两 类 通信 量 ， 我 们 有 

两 条 单独 的 丢弃 概率 曲线 。 很 快 就 会 明白 ， 10 a 
RIO 为 什么 称 这 两 类 为 “ 界 内 ”和 “界外 ”。 
因为 “界外 ”曲线 的 MinThreshold 比 “ 界 内 ” | 
曲线 的 小 ， 所 以 很 显然 在 低级 别 拥塞 时 ， 只 有 Maxp i cyl 平均 队 





标志 “界外 ”的 分 组 被 RED 算法 丢弃 。 如 果 eS 列 长 度 
拥塞 变 得 更 严重 ， 将 有 更 多 的 “界外 ”分 组 被 Mioa Mi Meg Men 
丢弃 ， 然 后 如 果 平 均 队 列 长 度 超过 Minin 时 ， 图 6-26 具有 “ 界 内 ”和 “界外 ” 


RED 就 开始 连 “ 界 内 ”分 组 也 丢弃 了 。 天 弃 概率 的 RED 
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之 所 以 称 两 类 分 组 为 “ 界 内 ”和 “界外 ”"， 是 源 于 分 组 的 标识 方式 。 我 们 已 经 注意 到 ， 
标识 分 组 由 管理 域 边缘 的 路 由 器 来 执行 。 可 以 把 这 台 路 由 器 看 作 是 在 网 络 服 务 提供 商 和 该 
网 络 某 一 客户 之 间 的 边界 上 。 客 户 可 能 是 其 他 的 网 络 ， 例 如 ， 某 个 公司 的 网 络 或 是 另 一 个 
网 络 服务 提供 商 的 网 络 。 客 户 和 网 络 服务 提供 商 在 确保 服务 的 某 种 描述 问题 上 达成 一 致 
(或 许 是 客户 为 这 种 描述 向 网 络 服务 提供 商 付费 ) 。 这 个 描述 可 能 是 这 样 的 : “人 允许 客户 X 
最 多 发 送 y Mbps 可 确保 的 通信 和 量 "， 也 可 能 要 复杂 得 多 。 不 论 描 述 是 什么 ， 边 缘 路 由 器 都 
会 清楚 地 将 来 自 该 客户 的 分 组 标识 为 “ 界 内 描述 ”或 “界外 描述 "。 在 上 面 提 到 的 例子 中 ， 
只 要 客户 的 发 送 速 率 低 于 y Mbps. 那么 它 的 所 有 分 组 都 标识 为 “ 界 内 ”， 但 是 如 果 它 超过 
了 这 个 速率 ， 额 外 的 分 组 将 被 标识 为 “界外 ”。 | 

在 边缘 的 轮廓 仪 和 在 服务 提供 商 网 络 中 所 有 路 由 器 上 的 RIO 都 应 尽力 确保 (但 不 是 
保证 ) 客户 的 分 组 能 在 其 轮廓 下 传送 。 实 际 上 ， 如 果 大 部 分 分 组 是 “界外 ”分 组 的 话 〈 其 
中 包括 由 那些 没有 为 建立 描述 而 额外 付费 的 客户 发 送 的 分 组 )，RIO 机 制 会 尽量 保持 拥塞 
较 低 以 便 使 “ 界 内 ”分 组 很 少 被 丢弃 。 显 然 ， 必 须 有 足够 的 带宽 ， 使 得 单独 的 “ 界 内 ”分 
组 不 会 让 链 路 拥塞 到 RIO 开始 丢弃 “ 界 内 ”分 组 的 地 步 。 

和 RED 一样，RIO 这 种 机 制 的 有 效 性 一 定 程度 上 依赖 于 正确 的 参数 选择 ， 对 于 RIO 
来 说 ， 需 要 设置 更 多 的 参数 。 在 写本 书 时 ， 这 种 方案 在 现 有 的 网 络 中 如 何 工 作 还 是 一 个 存 
在 争议 的 问题 。 

RIO 的 一 个 重要 的 性 质 是 它 不 改变 “ 界 内 ”和 “界外 ”分 组 的 顺序 。 例 如 ， 如 果 一 个 
TCP 连接 正 将 分 组 送 给 一 个 轮廓 仪 ， 于 是 一 些 分 组 被 标识 为 “ 界 内 ”， 而 另 一 些 分 组 被 标 
识 为 “界外 ”， 这 些 分 组 将 在 路 由 器 队列 中 获得 不 同 的 丢弃 概率 ， 但 它们 会 按 与 发 送 相 同 
的 顺序 到 达 接 收 方 。 这 对 于 大 多 数 TCP 实现 都 很 重要 ， 尽 管 它们 能 处 理 无 序 到 达 的 分 组 ， 
但 是 当 分 组 按 序 到 达 时 ， 它 们 执行 起 来 要 好 得 多 。 还 要 注意 ， 当 分 组 到 达 顺 序 改变 时 ， 像 
快速 重 传 这 样 的 机 制 可 能 会 被 错误 地 触发 。 

可 以 推广 RIO 思想 使 它 提供 两 条 以 上 的 丢弃 概率 曲线 ， 这 种 思想 基于 一 个 称 为 加 权 
RED (WRED) 的 方法 。 在 这 种 情况 下 ，DSCP 字段 的 值 用 于 在 多 条 丢弃 概率 曲线 中 选择 
一 条 曲线 ， 以 便 能 提供 多 种 不 同类 别 的 服务 。 


它们 现在 在 哪 ? 

区 分 服务 的 低调 成 功 

在 2003 年 ， 许 多 人 断言 区 分 服务 已 经 走向 死亡 。 在 那 年 的 ACM SIGCOMM 年 会 
(最 有 影响 的 网 络 研究 会 议 ) 上 ， 一 个 具有 醒目 名 字 “RIPQoS” 的 小 组 成 立 了 一 一 该 小 组 
的 官方 名 字 是 “ 重 访 IP 服务 质量 "， 在 小 组 声明 中 清楚 地 暗示 QoS 可 能 准备 安详 地 休息 
了 。 然 而， 正如 马克 吐 温 讽刺 他 的 死亡 报道 太 夸 张 了 ,似乎 IP 服务 质量 的 死亡 ， 尤 其 是 
区 分 服务 的 死亡 也 太 夺 张 了 。 

导致 人 们 对 区 分 服务 持 翡 观看 法 的 主要 原因 是 它 没 有 被 因特网 服务 提供 商 配 置 到 任何 重 
要 的 领域 。 不 仅 如 此 ， 而 且 没有 任何 QoS 机 制 使 IP 电话 和 视频 流 这 样 的 实时 应 用 在 因特网 
上 工作 得 很 好 ， 这 使 人 怀疑 是 否 需要 任何 QoS。 一 定 程度 上 这 是 许多 因特网 服务 提供 商 提供 
的 高 带宽 链 路 和 路 由 器 的 配置 ， 特 别 是 在 20 世纪 90 年 代 后 期 网 络 蓬勃 发 展 的 那 几 年 。 

为 了 清楚 区 分 服务 成 功 在 哪里 ， 需 要 看 看 ISP 的 骨干 网 。 例 如 ， 已 经 配置 了 IP 电话 
的 公司 本 书写 作 时 有 数 以 千 万 计 的 企业 级 IP 电话 在 使 用 中 一 一 通常 为 音频 媒体 分 组 
使 用 EF 行为 ， 以 确保 在 和 其 他 流量 共享 链 路 时 不 会 有 延迟 。 同 样 的 方法 用 于 许多 基于 IP 
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的 住宅 语音 服务 : 仅仅 在 住宅 之 外 的 上 行 链 路 获得 优先 权 (例如 ，DSL 链 路 较 慢 的 方向 
通常 对 于 语音 端点 为 EF 建立 DSCP， 对 于 连接 到 宽带 链 路 上 的 用 户 的 路 由 器 使 用 区 分 服 
务 ， 以 便 对 那些 分 组 有 和 较 低 的 延迟 。 甚 至 有 一 些 大 的 国家 电话 公司 也 已 经 把 传统 的 语音 服 
务 移 植 到 了 IP 网 络 上 ， 区 分 服务 提供 了 保护 语音 服务 质量 的 方法 。 

除 受益 于 区 分 服务 的 语音 之 外 ,还 有 一 些 其 他 应 用 ,特别 是 商业 数据 服务 。 恤 庸 置疑 、 
i ic BE ig dein et em ea 两 个 因素 
使 区 分 服务 的 配置 非常 重要 : 应 用 程序 对 QoS 保证 的 高 要 求 ， 以 及 链 路 带宽 足以 为 所 有 流量 
提供 QoS 保证 的 缺乏 。 A 重要 的 ， pat Fik 
造 带宽 一 一 它 所 能 做 的 只 是 确保 带宽 被 优先 分 配给 有 更 大 QoS 需求 的 应 用 程 





提供 区 分 服务 的 第 三 种 方法 是 在 由 6. 2. 2 节 描 述 的 加 权 公 平 排队 调度 程序 中 用 DSCP 
的 值 决 定 将 分 组 放 人 哪个 队列 中 ， 正如 一 个 非常 简单 的 例子 所 示 ， 我 们 可 以 用 一 个 代码 指 
点 指示 尽力 而 为 服务 (best-effort) 队列 ， 用 第 二 个 代码 点 选择 加 价 (premium) 队列 
然后 我 们 需要 为 加 价 队 列 选 一 个 权 值 ， 使 加 价 分 组 获得 比 尽 力 而 为 服务 分 组 更 好 的 服务 
这 依赖 于 加 价 分 组 提供 的 负载 。 例 如 ， 如 果 令 加 价 队列 的 权 值 为 1 令 尽 力 而 为 服务 队列 
的 权 值 为 4， 确 保 加 价 分 组 可 获得 的 带宽 为 

Boremium = W premium/ PF parmin Went stari 2"! (1+4)=0. 2 

就 是 说 ,我 们 有 效 地 为 加 价 分 组 预定 了 链 路 的 20%，、， 这样 如 果 加 价 通 信和 量 提 供 的 负载 
平均 为 链 路 的 10%， 那么 加 价 通 信和 量 就 好 像 运 行 在 一 个 负载 非常 轻 的 网 络 中 ， 因 而 服务 也 
会 非常 好 。 特 别 是 ， 因 为 在 这 种 情况 下 WFQ 试图 让 加 价 分 组 一 到 达 就 被 发 送 ， 所 以 加 价 
分 组 的 延迟 可 以 一 直 保持 较 低 。 另 一 方面 ， 如 果 加 价 通信 量 的 负载 为 30 名 ,那么 它 活动 时 
就 好 像 运 行 在 一 个 负载 很 重 的 网 络 中 ， 而 加 价 分 组 的 延迟 将 非常 高 ， 甚 至 比 所 谓 的 尽力 服 
务 分 组 更 糟 。 因 此 ， 了 解 提供 的 负载 和 谨慎 地 设置 权 值 对 这 类 服务 而 言 很 重要 。 但 是 要 注 
意 ， 安 全 的 方法 在 为 加 价 队列 设置 权 值 时 非常 保守 。 如 果 这 种 权 值 设置 比 期 望 的 负载 高 得 
多 ,就 有 可 能 出 错 ， 并 且 也 不 能 避免 尽力 而 为 服务 通信 和 量 使 用 已 被 加 价 预定 但 未 被 加 价 分 
组 使 用 的 那 部 分 带宽 。 

和 在 WRED 中 一 样 ， 我 们 可 以 推广 基于 WFQ 的 方法 ， 允 许 由 不 同 代码 点 表示 的 两 
个 以 上 的 类 。 而 且 可 以 把 一 个 队列 选择 器 和 一 种 丢弃 选择 结合 起 来 。 例 如 ， 用 12 个 代码 
点 ,我 们 可 以 有 4 个 带 不 同 权 值 的 队列 ， 每 个 队列 有 3 种 丢弃 选择 。 这 正 是 IETF 在 “ 确 
保 服务 ”的 定义 中 所 做 的 事情 。 


相关 主题 

ATM 服务 质量 

当前 ATM 技术 的 重要 性 不 如 10 年 以 前 ， 但 其 实际 贡献 是 在 QoS 领域 。 在 一 些 方面 、 
ATM 具有 相当 强 的 QoS 能 力 的 事实 激励 着 IP 中 QoS 的 发 展 。 这 也 有 助 于 早期 人 们 对 
ATM 的 采纳 。 

在 很 多 方面 ，ATM 网 络 提供 的 服务 质量 性 能 与 使 用 综合 服务 的 IP 网 络 提供 的 服务 质 
量 性 能 是 类 似 的 。 但 是 与 IETF 的 三 种 服务 类 型 相 比 ，ATM 标准 化 组 织 共 提出 五 种 服务 
类 型 .9 这 五 种 ATM 服务 类 型 是 : 


O 我们 把 尽力 而 为 看 作 是 一 种 服务 类 型 ， 具 有 可 控制 的 负载 和 有 保证 的 服务 
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。 固定 比特 速率 (CBR). 
可 变 比特 速率 一 一 实时 (VBR-rt) 。 
可 变 比 特 速率 一 一 非 实 时 (VBR-nrt) 。 

。 可 利用 比特 速率 (ABR). 

。 未 指明 的 比特 速率 (UBR)。 

大 部 分 ATM 和 IP 的 服务 类 型 是 相当 类 似 的 ， 但 其 中 一 类 ABR， 在 IP 中 没有 真正 与 
之 相对 应 的 类 。 下 面 我 们 将 详细 地 解释 这 个 类 。VBR-rt 和 IP 综合 服务 中 的 有 保证 服务 类 
非常 相似 。 用 于 建立 VBR-rt VC 的 确切 参数 和 用 于 做 有 保证 服务 预定 的 参数 略 有 不 同 ， 
但 基本 思想 是 相同 的 。 源 端 产 生 的 通信 量 由 令 牌 桶 表示 ， 同 时 指定 穿 过 网 络 需 要 的 最 大 总 
iR, 

除了 希望 CBR 通信 量 的 源 端 以 不 变 的 速率 传送 以 外 ，CBR 也 类 似 于 有 保证 的 服务 。 
注意 事实 上 这 是 VBR 的 一 个 特例 ， 其 中 源 端 的 峰值 速率 和 传送 的 平均 速率 相等 。 

VBR-nrt 和 IP 的 受 控 负载 服务 有 些 类 似 。 此 外 ， 源 通信 量 由 令 牌 桶 描述 ， 但 在 延迟 
KREFT, QTR VER HIPS READ A ME ee eee S 

最 后 ， 我 们 来 看 ABR， 它 不 仅 是 一 个 服务 类 型 ， 还 定义 了 一 系列 拥塞 控制 机 制 。 

是 比较 复杂 的 ， 所 以 我 们 这 里 只 涉及 其 中 几 个 要 点 。 

ABR 机 制 在 虚 电 路 上 运作 是 通过 在 VC 的 源 和 目的 之 间 交 换 一 种 称 为 资源 管理 
(RM) 信 元 的 特殊 ATM 信 元 。 发 送 RM 信 元 的 目的 是 将 网 络 中 有 关 拥 塞 状态 的 信息 回 送 
给 源 端 ， 使 它 能 以 合适 的 速率 发 送 通 信和 量 。 就 这 方面 而 言 ，RM 信 元 是 一 种 明确 的 拥塞 反 
馈 机 制 。 这 与 DECbit 类 似 (6.4.17), 但 与 靠 丢 弃 分 组 来 检测 拥塞 的 TCP 隐 式 反馈 
机 制 相反 。 它 也 类 似 于 6. 3.2 节 中 描述 的 用 于 TCP 的 新 的 快 启动 机 制 。 

最 初 ， 源 端 向 目的 端 发 送信 元 ， 其 中 包含 它 想 发 送 数据 信 元 的 速率 。 路 径 上 的 交换 机 
查看 该 请 求 速率 ， 并 决定 在 保证 其 他 正在 传送 的 通信 量 基 础 上 上， 是否 有 足够 的 可 用 资源 来 
处 理 这 一 速率 。 如 果 有 足够 的 资源 可 用 ，RM 信 元 将 不 加 改动 地 被 传送 ; CU. ERE 
传送 前 将 减少 请 求 的 速率 。 在 目的 节点 ，RM 信 元 将 回转 并 发 还 给 源 端 ， 以 便 让 源 知 道 它 
能 以 多 大 的 速率 发 送 。 

ABR 允许 源 增加 或 减少 其 分 配 率 ， 增 加 还 是 减少 由 当下 条 件 决定 。 即 以 高 于 或 低 于 
要 求 的 速率 的 周期 性 地 发 送 RM 信 元 。 如 果 不 使 用 源 规定 的 发 送 速率 ， 它 就 会 随 着 时 间 流 
逝 而 衰减 。 通 常 ， 交 换 机 中 的 特定 算法 决定 RM 信 元 穿 过 交换 机 时 的 速率 。 该 算法 借鉴 了 
各 种 信息 (如 当前 缓冲 占用 率 ) 测 得 当前 活跃 VC 的 到 达 速 率 。 这 些 算法 是 正规 的 拥塞 控 
制 算法 ， 力求 最 大 限度 地 提高 吞吐 量 ， 并 保持 低 延 时 和 低 损 耗 。 

目前 在 实际 的 网 络 中 ATM 使 用 得 并 不 多 ， 关 于 ATM 服务 质量 人 们 感 兴趣 的 问题 是 
在 不 同 技术 之 上 有 多 少 机 制 。ATM 和 IP 服务 质量 中 的 机 制 包括 允许 控制 、 调 度 算法 、 令 
牌 桶 、 显 式 拥 塞 反馈 机 制 等 。 











6.5.4 基于 等 式 的 拥塞 控制 

我 们 通过 回顾 TCP 拥塞 控制 的 全 过 程 来 结束 对 QoS 的 讨论 ， 但 这 一 次 是 在 实时 应 用 
的 背景 下 。 回 想 一 下 ，TCP 调整 发 送 方 的 拥塞 窗口 〈 从 而 调整 发 送 速率 ) 以 响应 ACK 和 
超时 事件 。 这 种 方法 的 优点 在 于 ， 它 不 需要 网 络 上 路 由 器 的 配合 ; 它 是 一 种 纯粹 基于 主机 


296 BO¢ 








ae 这 种 策略 补充 了 我 们 所 考虑 的 QoS 机 制 ， 这 是 因为 : DE QoS 机 制 广泛 采用 之 

， 各 类 应 用 可 以 使 用 目前 的 这 种 基于 主机 的 解决 方案 ; 名 即使 区 分 服务 被 全 部 采用 ， 路 
SELAWETERINE, 如 果 发 生 这 种 情况 ， 我 们 还 是 希望 实时 应 用 以 合理 的 方式 做 
出 反应 。 

虽然 我 们 想 要 利用 TCP 的 拥塞 控制 算法 ,但 是 TCP 本 身 并 不 适合 实时 应 用 。 一 个 原 
因 是 TCP 是 可 靠 的 协议 ， 而 实时 应 用 经 常 不 能 忍 然而 ， 如 果 将 
TCP 从 它 的 拥塞 控制 机 制 中 分 离 出 来 ， 也 就 是 说 ， 给 一 个 不 可 靠 的 协议 CYR UDP) 加 入 
类 似 TCP 的 拥塞 控制 ， 那 么 会 发 生 什么 情况 ? 实时 应 了 用 和 EB 够 利用 这 样 的 协议 吗 ? 

一 方面 ， 这 是 一 个 有 了 吸 引力 的 想法 ， 因 为 它 会 引发 实时 流 与 TCP 流 的 公平 竞争 . H 
前 所 用 的 一 种 替代 策略 是 视频 应 用 使 用 UDP. 不 用 任何 形式 的 拥塞 控制 ， 结果 是 TCP 在 
拥塞 时 让 路 ， 人 允许 UDP 侵占 TCP 流 的 带宽 。 男 一 方面 ，TCP 拥塞 控制 算法 的 锯齿 行为 
( 见 图 6-9) 不 适合 实时 应 用 : 锯齿 意味 着 应 用 传输 的 速率 总 是 上 上 下 下 . 相反 ， 实 时 应 用 
若 在 相当 长 的 一 段 时 间 内 能 够 维持 一 个 平稳 的 传输 速率 ， 则 工作 得 最 好 。 

是 否 可 能 达到 两 个 方面 的 完美 结合 : 一 方面 为 了 公平 而 与 TCP 拥塞 控制 兼容 ， 一 方 
面 为 了 应 用 而 维持 平稳 的 传输 速率 ?最 近 的 工作 表明 ， 答案 是 肯定 的 。 尤 其 是 . 已 经 提出 
了 多 种 所 谓 的 TCP 友好 的 拥塞 控制 算法 。 这 些 算法 有 两 个 主要 目标 。 第 一 个 目标 是 缓慢 
适应 拥塞 窗口 。 这 一 点 是 通过 采用 相对 长 的 时 间 段 (如 一 个 RTT) 而 不 是 基于 每 个 分 组 
来 实现 ， 使 得 传输 速率 得 以 平滑 。 第 二 个 目标 为 在 公平 竞争 TCP 流 的 意义 下 是 TCP 友好 
的 。 通 过 把 流 的 行为 附加 到 建 模 TCP 行为 的 等 式 中 可 以 保证 这 一 特性 得 到 满足 。 因 此 、 
这 种 方法 有 时 称 为 基于 等 式 的 拥塞 控制 (equation-based congestion control) 。 

在 6. 3 节 中 我 们 看 到 过 一 个 关于 TCP 吞吐 率 的 简单 等 式 . 有 兴趣 的 读者 可 以 参阅 本 

草 末 参考 文献 中 的 论文 以 获取 关于 其 完整 模型 的 细节 。 对 我 们 来 说 ， 关 注 下 面 这 个 通用 形 
式 的 等 式 就 足够 了 : 


Ratecc ( ) 


这 个 等 式 表明 ， 为 了 使 TCP 友 好， 传输 速率 必须 与 往返 时 间 (RTT) 和 丢弃 速率 Co) 的 
平方 根 成 反比 。 换 言 之 ,为 了 从 这 个 关系 中 构造 一 个 拥塞 控制 机 制 ， 接 收 方 必须 定期 地 向 
发 送 方 报告 当时 的 丢弃 速率 (例如 ， 接 收 方 可 能 报告 最 后 100 个 分 组 中 有 10% 没 有 收 到 )、 
然后 发 送 方 上 下 调整 发 送 速 率 ， 保 证 等 式 关 系 继续 成 立 。 当 然 ， 这 还 取决 于 应 用 对 这 些 可 
用 速率 变化 的 适应 性 ， 但 是 正如 我 们 将 在 下 一 章 看 到 的 ， 许 多 实时 应 用 的 适应 性 是 相当 
强 的 。 


6.6 小 结 


就 像 我 们 刚才 看 到 的 ， 资 源 分 配 问题 不 仅 是 计算 机 网 络 的 重点 也 是 一 个 很 难 的 问 
题 。 本 章 讨论 了 资源 分 配 的 两 个 方面 。 第 一 个 方面 是 拥塞 控制 ， 它 考虑 的 是 当主 机 申请 的 
资源 超过 网 络 可 以 提供 的 资源 时 防止 全 面 的 服务 降级 。 第 二 个 方面 是 给 不 同 的 应 用 提供 不 
同 的 服务 质量 ， 这 些 应 用 需要 的 保证 比 尽力 而 为 服务 模型 提供 的 保证 要 多 。 

:大 多 数 拥塞 控制 机 制 是 针对 当今 因特网 的 尽力 而 为 服务 模型 设计 的 ， 其 拥塞 控制 的 主 

要 职责 落 到 网 络 的 端 节点 上 。 典 型 情况 下 ， 源 使 用 反馈 〈 从 网 络 中 隐 式 地 获得 或 由 路 由 器 
显 式 发 送 ) 来 调整 它 加 在 网 络 上 的 负载 。 这 正 是 TCP 的 拥塞 控制 机 制 所 做 的 工作 。 
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路 由 器 实现 一 种 控制 哪些 分 组 可 以 传输 而 哪些 分 组 被 丢弃 的 排队 规则 ， 这 完全 不 依赖 
于 端 节 点 正在 做 的 工作 。 有 时 这 个 排队 算法 可 以 复杂 到 能 隔离 通信 和 量 (例如 WFQ, mE 
其 他 情况 下 ， 路 由 器 试图 监视 它 的 队列 长 度 ， 然 后 在 拥塞 将 发 生 时 发 送信 号 给 源 主 机 “〔 例 
如 ，RED 网 关 和 DECbit) 。 

时 下 的 服务 质量 方法 所 做 的 工作 比 拥塞 控制 多 得 多 。 它 们 的 目标 是 使 对 延迟 、 委 失 和 
吞吐 量 有 着 各 种 需求 的 应 用 程序 所 提出 的 请 求 都 能 通过 网 络 中 的 新 机 制 得 到 满足 。 综 合 服 
务 (IntServ) 方法 允许 单独 的 应 用 流 使 用 显 式 的 信 令 机 制 向 路 由 器 说 明 它 们 的 需要 CRS- 
VP)， 而 区 分 服务 (DiffServ) 将 分 组 指定 到 路 由 器 上 接收 区 分 处 理 的 多 种 不 同 的 类 中 。 
虽然 区 分 服务 是 目前 使 用 较为 广泛 的 方法 ， 但 公 网 的 部 署 中 还 是 鲜 见 区 分 服务 和 综合 
服务 。 


接 下 来 会 发 生 什么 : 网 络 重 构 

也 许 我 们 应 该 提出 的 更 大 的 问题 是 ,我 们 可 以 对 网 络 有 哪些 期 望 和 最 终 有 多 少 责任 落 
到 端 主机 上 。 在 提供 更 多 不 同 服务 质量 方面 ， 基 于 预定 的 策略 明显 优 于 现今 使 用 的 基于 反 
馈 的 策略 ,能 提供 不 同 质量 的 服务 是 将 更 多 的 功能 放 在 网 络 路 由 器 上 的 主要 原因 。 是 不 是 
这 就 意味 着 像 TCP 这 样 的 端 到 端 拥塞 控制 的 日 子 到 了 届 指 可 数 的 地 步 ? 当然 不 是 。TCP 
和 使 用 TCP 的 应 用 地 位 都 很 牢固 ， 而 且 在 很 多 情况 下 它们 不 需要 从 网 络 中 获得 更 多 的 帮 
助 。 进一步 说 ， 在 因特网 这 样 世 界 范围 内 的 噶 构 网 络 中 ， 所 有 路 由 需 都 准确 地 实现 相同 的 
资源 预定 机 制 是 不 可 能 的 。 最 终 ， 看 来 网 络 中 的 端 节点 至 少 在 一 定 程度 上 必须 靠 自己 。 毕 
竞 ， 我们 不 能 忘记 支撑 因特网 的 正确 设计 原则 是 在 路 由 器 上 做 最 简单 的 事 ， 而 把 所 有 复杂 
的 事 放 在 你 可 以 控制 的 边缘 上 。 除 了 资源 分 配 问 题 ， 观 察 上 述 方面 在 未 来 的 几 年 中 如 何 发 


从 某 种 意义 上 来 讲 ， 区 分 服务 方法 代表 网 络 中 的 绝对 最 少 智能 和 综合 服务 网 络 中 需要 
的 高 智能 〈 同 时 存储 状态 信息 ) 之 间 的 折 囊 方法。 综合 服务 和 RSVP 的 部 署 只 在 非常 有 限 
的 环境 (主要 是 在 企业 网 络 ) 中 才能 找到 。 一 个 重要 的 问题 是 区 分 服务 方法 是 否 能 够 满足 
更 苛刻 的 应 用 需求 。 例 如 ， 如 果 一 个 服务 提供 商 试 图 提供 在 IP 网 络 上 大 范围 的 视频 点 播 
服务 ， 区 分 服务 技术 是 否 足 以 达到 传统 的 电视 观众 所 期 望 的 服务 质量 ? 随 着 网 络 中 各 种 不 
同 智能 程度 的 变化 ， 看 来 似乎 需要 开发 更 多 的 QoS 选项 。 

在 公共 互联 网 上 ， 一些 趋势 似乎 指向 分 管 其 QOS 需求 的 终端 系统 。 例 如 ，Skype 的 成 
功 一 部 分 是 靠 免 费 服 务 使 用 户 愿 意 忍 受 无 Qos 保证 。 从 技术 的 角度 来 看 ， 速 度 自 适应 
(Skype 有 可 变 比 特 率 语音 编 解 码 器 ) AE a CE 9 章 中 谈 到 的 技术 ) 的 结合 虽然 缺 
乏 网 络 支持 ， 却 已 经 能 够 提供 有 效 的 传输 质量 。 同 时 ， 在 用 户 更 为 苛刻 的 企业 环境 中 ， 部 
EMAR QoS 支持 的 发 展 日 趋 复 杂 。 
扩展 阅读 

这 一 章 的 推荐 阅读 清单 很 长 ， 反 映 了 人 们 在 拥塞 控制 和 资源 分 配方 面 做 了 很 多 有 意义 
的 工作 。 它 包括 本 童 讨论 的 引进 各 种 机 制 的 原始 论文 。 如 果 想 要 了 解 上 述 机 制 的 具体 细 
市 ， 包 括 关 于 这 些 机 制 的 有 效 性 和 公平 性 的 完整 分 析 ， 这 些 文章 是 不 可 不 看 的 ， 因 为 它们 
给 出 了 有 关 拥 塞 控 制 的 各 种 相互 影响 的 观点 。 另 外 ， 第 一 篇 文章 给 出 了 一 个 很 好 的 关于 本 
主题 的 早期 工作 的 概述 ， 而 最 后 一 篇 则 是 关于 在 因特网 上 开发 QoS 功能 的 重要 文章 之 一 。 
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除了 上 面 推荐 的 文章 ， 还 有 大 量 关 于 资源 分 配 的 有 价值 的 资料 。 对 于 初学 者 ，Klein- 
rock [Kle79] 和 Jaffe [Jaf81] 这 两 篇 早期 的 文章 莫 定 了 使 用 能 力作 为 衡量 拥塞 控制 有 效 
性 度量 的 基础 。 另 外 ，Jain [Jai91]」 对 和 性 能 评估 有 关 的 各 种 问题 给 出 了 彻底 的 讨论 ， E 
括 Jain 的 公平 性 指标 的 描述 。 

有 关 TCP Vegas 的 更 多 细节 可 以 在 Brakmo 和 Peterson [BP95] 的 文章 中 找到 .后续 
的 工作 在 Low 等 [LPW02bj] 的 文章 中 有 所 描述 。 关 于 TCP 拥塞 控制 算法 的 改进 在 下 列 
文章 将 继续 探讨 。 高 延迟 带宽 积 下 的 TCP Vegas 的 扩展 FAST TCP 在 [WJLH06] 文章 
中 讨论 。Ha 等 人 [HRX08] 的 文章 描述 了 Linux FAJ TCP 变种 CUBIC。Floyd 的 文章 中 
详 述 了 一 种 实验 IETF 标准 :; HighSpeed TCP 的 规范 。 类 似 6. 4 节 介 绍 的 各 种 拥塞 避免 技 
术 可 以 在 Wang 和 Crowcroft [WC92, WC91] 以 及 Jain [Jai89] 的 文章 中 找到 ， 第 一 篇 
文章 还 给 出 一 个 很 好 的 拥塞 避 人 免 方法 的 综述 ， 它 是 基于 人 们 对 网 络 接 近 拥 塞 时 如 何 变 化 的 
共识 给 出 的 。 一 些 人 对 RED 算法 提出 了 改进 ， 这 包括 Lin 等 人 [LM97]」 的 文章 中 描述 的 
流 RED (FRED). 

Ramakrishnan, Floyd 和 Black 在 [RFBO1] 中 详细 说 明了 ECN 建议 标准 。Stoica 等 
人 的 [SSZ98], Low 等 人 的 LLPW+ 02a] 以 及 Katabi 等 人 的 [KHRO2] 以 活动 队列 管 
理 的 形式 推广 了 上 述 思 想 。Katabi 的 文章 介绍 了 XCP， 这 是 一 个 新 提出 的 传输 层 协议 ， 
在 高 带宽 环境 下 改善 了 TCP 的 吞吐 量 。 

更 近 的 关于 分 组 调度 的 工作 扩展 了 上 面 引 用 的 最 初 的 公平 排队 的 文章 。 很 好 的 例子 参 
见 Stoica 和 Zhang [SZ97], Bennett 和 Zhang [BZ96], 以 及 Goyal, Vin 和 Chen 
[GVC96] 的 文章 中 。 

许多 已 出 版 的 其 他 文章 是 关于 综合 服务 体系 结构 的 ， 这 些 文章 包括 Braden 等 人 的 
[BCS94] 的 概述 和 Zhang 等 人 的 [ZDE* 93] 关于 RSVP 的 描述 。 讨 论 区 分 服务 这 一 主题 
的 第 一 篇 文章 是 Clark 的 [Cla97]， 这 篇 文章 介绍 RIO 机 制 和 区 分 服务 总 的 体系 结构 。 其 
后 Clark 和 Fang 的 [CF98] 给 出 一 些 模拟 结果 。Blake 等 人 的 LBBC* 98] 定义 了 区 别 服 
务 体 系 结构 ，Davie 等 人 的 [DCB+ 02] 定义 了 EF 每 一 跳 的 行为 。 想 了 解 遵循 互联 网 上 尽 
力 而 为 服务 时 实时 应 用 程序 的 耗费 ， 我 们 推荐 Chen [CHHL06] 等 人 撰写 的 Skype 用 户 
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满意 度 这 篇 论文 。 


最 后 ， 除 了 上 述 针对 传统 数据 应 用 程序 特性 而 改进 TCP 的 工作 ， 人 们 又 提出 了 多 个 
TCP 友好 的 拥塞 控制 算法 . 并 为 适应 实时 应 用 做 了 修改 。 在 Floyd 等 人 的 [FHPW00j， 
Sisalem 和 Schulzrinne 的 [SS98], Rhee 等 人 的 [ROY00] 以 及 Rejaie 等 人 的 LRHE99 | 
中 包括 这 些 算 法 。 这 些 算 法 建立 在 Padhye 等 人 的 [PFTK98 ] 早期 提出 的 基于 等 式 模型 
的 TCP 吞吐 量 基 础 上 。 一 个 TCP 友好 的 吞吐 量 控制 协议 已 经 被 IETF [HFPW03] 定义 
T. 在 UDP 中 增加 拥塞 控制 的 想法 已 经 导致 了 数据 报 拥塞 控制 协议 (DCCP) [KHF06] 
的 产生 。 


习题 
1. 可 以 基于 主机 到 主机 或 基于 进程 到 进程 定义 流 。 


(a) 讨论 每 种 方法 对 应 用 程序 的 含义 。 

(b) IPv6 包含 一 个 FlowLabel 字段 ， 用 于 向 路 由 器 提供 有 关 单 独 流 的 线索 。 源 主机 将 在 这 个 字段 放 一 
个 用 于 标识 流 的 其 他 所 有 字段 的 伪 随 机 散 列 值 ， 这 样 路 由 器 可 以 使 用 这 些 位 中 的 任意 子 集 作为 散 
列 值 来 快速 查找 流 。FlowLabel 字段 基于 这 两 种 方法 的 哪 一 个 ? 

. TCP 使 用 以 主机 为 中 心 的 、 基 于 反馈 的 和 基于 窗口 的 资源 分 配 模 型 。 如 何 设计 TCP 以 替代 下 列 模 型 ? 
Ca) 以 主机 为 中 心 的 、 基 于 反馈 的 和 基于 速率 的 模型 。 

Cb) 以 路 由 器 为 中 心 的 和 基于 反馈 的 模型 。 

3. 对 于 以 太 网 ， 如 第 2 章 中 的 习题 51, 平均 分 组 大 小 为 5 个 时 间 段 ， 而 且 当 有 N 个 站 点 试图 发 送 时 ， 直 
到 有 一 个 站 点 发 送 成 功 的 平均 延迟 为 NM2 个 时 间 段 。 分 别 画 出 以 吞吐 量 、 延 迟 和 能 力作 为 负载 函数 时 
的 曲线 图 : 吞吐 量 按 其 最 大 值 的 百分比 计量 ， 负 载 按 在 任意 时 刻 同时 准备 发 送 数据 的 站 点 的 数目 
CN) 计量 (有些 不 真实 )。 注 意 ， 这 意味 着 总 有 一 个 站 点 准备 发 送 〈 除 非 N=0, 但 这 种 情况 可 忽略 ) 。 
假设 每 个 站 点 在 一 个 时 刻 只 有 一 个 分 组 要 发 送 。 

. 假设 两 台 主 机 A 和 BB 通过 一 台 路 由 器 R 相连 。A 到 R 的 链 路 带宽 为 无 限 大 ，R 到 B 的 链 路 每 秒 可 以 
发 送 一 个 分 组 。R 的 队列 为 无 限 大 。 负 和 载 按 每 秒 从 A 到 B 发 送 的 分 组 数 计 量 。 画 出 吞吐 量 对 负载 和 延 
迟 对 负载 的 图 ; 如 果 面 不 出 图 ， 解 释 原 因 。 计 晤 负载 是 否 有 更 恰当 的 方法 ? 

5. TCP Reno 是 否 可 能 到 达 这 样 的 状态 拥塞 窗口 尺寸 远大 于 RTTX 带 宽 (例如 它 的 2 倍 )? 这 可 能 吗 ? 

6. 考虑 图 6-27 中 主机 日 AR AR R 及 R1 的 排列 。 所 有 链 路 都 是 全 双 工 的 ， 而 且 所 有 路 由 器 都 比 它们 
的 链 路 快 ， 说 明 路 由 器 R1 不 会 出 现 拥塞 ， 同 时 对 于 其 他 的 任何 路 由 器 R， 我 们 可 以 找到 一 种 只 让 该 
路 由 器 拥塞 的 通信 模式 。 
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图 6-27 习题 6 的 图 示 


7. 假设 一 个 拥塞 控制 方案 可 以 使 一 组 竞争 的 流 获 得 下 列 的 吞吐 率 :; 200KBps，160KBps，110KBps， 
95KBps 和 150KBps。 
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Ca) 计算 这 种 方案 的 公平 性 指数 。 

(b) 在 这 些 流 中 再 加 入 一 个 否 吐 率 为 1 000KBps 的 流 ， 重 新 计算 公平 性 指数 ， 

在 公平 排队 中 , 值 F; 被 解释 为 一 个 时 间 鹤 : 第 i 个 分 组 完成 传送 的 时 刻 。 给 出 加 权 公 平 排队 中 的 开 

的 解释 ， 并 根据 F,-1、 到 达 时 间 A;、 分 组 大 小 P, 以 及 为 该 流 指定 的 权 值 刀 ， 给 出 F, 的 公式 ， 

举例 说 明 公平 排队 实现 中 的 非 抢 先 策略 如 何 导 致 与 按 位 轮转 服务 不 同 的 分 组 传送 顺序 

假设 一 台 路 由 天 有 三 个 输入 流 和 一 个 输出 . 它 收 到 表 6-1 所 列 的 分 组 ， 它 们 几乎 在 同一 时 间 内 以 所 询 

顺序 到 达 ， 其 间 输 出 端口 已， 但 所 有 队列 是 空 的 .在 下 列 情况 下 ， 给 出 分 组 传送 的 顺序 : 

(a) 公平 排队 。 

Cb) 加 权 公 平 排队 , 流 2 的 权 值 为 4， 其 他 两 个 流 的 权 值 为 1 

假设 一 台 路 由 器 有 三 个 输入 流 和 一 个 输出 。 它 收 到 表 6-2 所 列 的 分 组 ， 它 们 几乎 在 同一 时 间 内 以 所 列 

顺序 到 达 ， 其 间 输 出 端口 已 ， 但 所 有 队列 是 空 的 : 在 下 列 情况 下 ， 给 出 分 组 传送 的 顺序 : 

(a) 公平 排队 。 

Cb) 加 权 公 平 排队 , 流 2 的 权 值 是 流 1 的 2 倍 , 流 3 的 权 值 是 流 1 的 1.5 倍 : 注意 ,按照 流 1、 流 2、 
流 3 的 顺序 。 






































表 6-1 习题 10 的 分 组 表 6-2 习题 11 的 分 组 
分 组 流 分 组 大 小 | 流 
i 1 1 | 200 | 1 
2 1 2 200 1 
3 1 3 160 | 2 
4 1 4 120 2 
5 2 5 | 160 | 2 
6 2 6 210 | 3 
7 3 7 | 150 | 3 
8 3 8 90 | 3 








. 假设 路 由 器 的 丢弃 策略 是 ， 当 队列 满 的 时 候 丢弃 开销 最 大 的 分 组 ， 其 中 分 组 “开销 ”的 定义 是 分 组 


长 度 与 它 在 队列 中 的 剩余 Cremainning) 时 间 的 乘积 。 (注意 . 在 计算 开销 时 ， 用 前 面 的 分 组 长 度 之 
和 代替 剩余 时 间 ， 结 果 是 等 价 的 。) 

(a) 与 队 尾 丢 奔 相 比 ， 这 一 策略 有 哪些 利弊? 

Cb) 给 出 排队 分 组 序列 的 一 个 实例 ， 其 中 丢弃 最 大 开销 分 组 的 顺序 不 同 于 丢弃 最 大 分 组 的 顺序 。 


Co) 给 出 一 个 例子 ， 其 中 两 个 分 组 随 着 时 间 的 伸延 其 相应 开销 的 顺序 发 生 互 换 。 
. 两 个 用 户 ， 一 个 用 Telnet 而 另 一 个 用 FTP 发 送 文 件 ， 都 通过 路 由 器 R 将 其 通信 量 送出 。R 的 输出 链 


路 太 慢 以 至 于 两 个 用 户 的 分 组 一 直 留 在 R 的 队列 中 。 如 果 R 对 这 两 个 流 使 用 如 下 的 排队 策略 ,讨论 
Telnet 用 户 看 到 的 相对 性 能 。 

(a) 轮转 服务 。 

(b) 公平 排 队 。 

O 修改 后 的 公平 排队 ,其 中 我 们 只 计算 数据 字 节 的 开销 ， 不 计算 TCP 和 IP 首部 的 开销 ， 

只 考虑 输出 通信 量 。 假 设 Telnet 分 组 有 1 字 节 数据 ，FTP 分 组 有 512 字 节 数据 ,并且 所 有 分 组 有 4 
字 节 的 首部 。 


. 考虑 一 台 路 由 器 ， 它 管理 着 三 个 流 ， 在 下 列 时 钟 时刻 每 个 流 都 有 固定 大 小 的 分 组 到 达 : 


流 A: 1, 2, 4, 6, 7, 9, 10, 

Wi B: 2, 6, 8, Ils 12,, 15. 

WiC: ls 2, 35 Ss 6s Ty Be 

所 有 三 个 流 共 享 同一 条 输出 链 路 ， 路 由 器 在 该 链 路 上 每 个 时 间 单 元 只 能 传送 一 个 分 组 。 假设 有 一 个 
无 限 大 的 缓冲 区 空间 。 
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Ca) 假设 路 由 器 实现 公平 排队 。 每 个 分 组 被 路 由 器 传送 时 ， 给 出 挂钟 时 间 。 到 达 时 间 的 关系 将 按 A、 
B.C 的 顺序 解决 。 注 意 ， 挂 钟 时 间 T= 2 就 是 公平 排队 时 钟 时 间 A; = 1.5. 

(b) 假设 路 由 器 实现 加 权 公 平 排队 ， 其 中 对 流 A 和 流 B 给 出 相等 的 容量 份额 ， 对 流 C 给 出 的 容量 是 
流 A 的 2 倍 。 每 个 分 组 被 传送 时 ， 给 出 挂钟 时 间 。 


. 考虑 一 台 路 由 器 ， 它 管理 着 三 个 流 ， 在 下 列 挂钟 时 刻 每 个 流 都 有 固定 大 小 的 分 组 到 达 : 


Hi As Ty 3e Ge Bis By Ba Tbs 
Hi Be J. 4, 7; B: 9, 18. 15, 
WiC: 1, 2, 4, 6. 7, 12 


所 有 三 个 流 共享 同一 条 输出 链 路 ， 路 由 器 在 链 路 上 每 个 时 间 单 元 只 能 传送 一 个 分 组 。 假 设 有 一 个 无 

限 大 的 缓冲 区 。 

Ca) 假设 路 由 器 实现 公平 排队 。 每 个 分 组 被 路 由 器 传送 时 ， 给 出 挂钟 时 间 。 到 达 时 间 的 关系 将 按 A, 
B、C 的 顺序 解决 。 注 意 ， 挂 钟 时 间 T= 2 就 是 公平 排队 时 钟 时 间 A; = 1. 333, 

Cb) 假设 路 由 器 实现 加 权 公 平 排队 ， 其 中 对 流 A 和 流 C 给 出 的 容量 份额 相等 ， 对 流 B 给 出 的 容量 是 
流 A 的 2 倍 。 每 个 分 组 被 传送 时 ， 给 出 挂钟 时 间 。 


. 假设 TCP 实现 一 种 扩展 ， 允 许 窗 口 大 小 远大 于 64KB。 假 设 你 用 这 一 扩展 TCP 在 一 条 延迟 为 50ms 


的 1Gbps 链 路 上 传送 一 个 10MB 的 文件 ， 而且 TCP 接收 窗口 为 1MB。 如 果 TCP 发 送 1KB 的 分 组 

(假设 无 拥塞 ， 无 丢失 分 组 ) ; 

(a) 当 慢 启动 打开 发 送 窗口 达到 1MB 时 用 了 多 少 RTT? 

(b) 发 送 该 文件 用 了 多 少 RTT? 

Co) 如 果 发 送 文件 的 时 间 由 所 需 的 RTT 的 数量 与 链 路 延迟 的 乘积 给 出 ， 传 输 的 有 效 吞吐 量 是 多 少 ? 
链 路 带宽 的 利用 率 是 多 少 ? 


. 考虑 一 个 简单 的 拥塞 控制 算法 : 使 用 线性 增加 和 成 倍 减 少 ， 但 不 用 慢 启 动 ， 以 分 组 而 不 是 以 字 节 为 


单位 ， 启 动 每 个 连接 时 拥塞 窗口 的 值 为 一 个 分 组 。 给 出 这 一 算法 的 详细 描述 。 假 设 延 迟 只 有 传输 时 
延 ， 而 且 发 送 一 组 分 组 时 ， 只 返回 一 个 ACK。 在 分 组 9、25、30、38 和 50 丢失 的 情况 下 ， 画 出 拥塞 
窗口 作为 往返 时 间 的 函数 图 。 为 了 简单 起 见 ， 假设 有 一 个 完美 的 超时 机 制 ， 它 在 恰好 传送 一 个 RTT 
后 检测 到 一 个 丢失 的 分 组 。 


. 在 前 一 个 问题 给 定 的 条 件 下 ， 计 算 这 个 连接 可 获得 的 有 效 乔 吐 量 。 假 设 每 个 分 组 包含 1 KB 数据 ， 且 


RTT = 100ms。 


- 在 线性 增加 期 间 ，TCP 用 下 面 的 公式 计算 拥塞 窗口 的 增 基 : 


Increment= MSS X (MSS/CongestionWindow) 
解释 为 什么 每 个 ACK 到 达 时 计算 这 个 增 量 可 能 得 不 到 正确 的 增 量 值 。 对 这 个 增 量 给 出 一 个 更 精确 的 
定义 。 (提示 : 一 个 给 定 的 ACK 可 以 表示 已 收 到 多 于 或 少 于 一 个 MSS 值 的 数据 。) 
在 什么 环境 下 ，TCP 中 即使 使 用 快速 重 传 机 制 仍然 可 能 发 生 粗 粒度 超时 ? 
假设 在 A 和 BB 之 间 有 路 由 涡 R。A 到 RR 的 带宽 无 限 大 〔 即 分 组 无 延迟 ), 但 R 到 B 的 链 路 引入 每 秒 
一 个 分 组 的 带宽 延迟 ( 即 两 个 分 组 用 2s， 依 此 类 推 )。 但 是 从 B 到 R 的 确认 可 以 立即 发 送 。A 通过 一 
4 TCP 连接 给 B 发送 数据 ， 用 慢 启 动 但 窗口 尺寸 任意 大 。R 除了 发 送 中 的 分 组 外 ， 有 长 度 为 1 的 一 
个 队列 。 在 每 一 秒 中 ， 发 送 方 先 处 理 到 达 的 ACK ， 再 响应 任何 超时 。 
(a) 假设 固定 的 TimeOut H 2s, Æ T=0，1，…，6s 时， 发 送 和 收 到 的 分 别 是 哪些 分 组 ? 由 于 超时 

链 路 会 空闲 吗 ? 

Cb) 如 果 TimeOut 是 3s， 有 哪些 变化 ? 
假设 A、R、B 如 前 一 题 所 述 ， 本 题 中 所 不 同 的 基 除 了 发 送 中 的 分 组 外 ，R 有 长 度 为 三 个 分 组 的 队 
列 。A 用 慢 启 动 启动 一 个 连接 ， 接 收 窗口 为 无 限 大 。 在 第 二 个 重复 ACK 时 〈 即 同一 分 组 的 第 三 个 
ACK 时 )， 进 行 快速 重 传 ，TimeOut 间隔 为 无 限 大 。 忽 略 快速 恢复 ， 当 一 个 分 组 丢失 时 ， 设 置 窗口 大 
小 为 1。 用 表格 表示 在 前 15s 内 A 收 到 什么 和 A 发 送 什 么 ， 以 及 尺 发 送 什 么 、R 的 队列 和 R 丢弃 


23. 


24. 


25. 


26. 


27. 


28. 


29. 


30. 
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什么 。 

假设 上 一 题 中 R 到 B 的 链 路 从 带宽 延迟 变 为 传播 延迟 ， 这 样 用 1s 可 发 送 两 个 分 组 ， 列 出 在 前 8s 内 
发 送 了 什么 和 接收 了 什么 。 假 设 静态 超时 值 为 2s， 在 超时 时 使 用 慢 启 动 ， 而 且 在 几乎 同一 时 间 发 送 
的 ACK 被 合并 。 注 意 现在 R 的 队列 长 度 是 无 关 的 (为什么?)， 

假设 主机 A 通过 路 由 器 R1 和 R2 到 达 主 机 B: A-R1-R2-B。 不 用 快速 重 传 , H A 以 2 © Estimate 
dRTT 计算 TimeOut. 假设 A 到 RI 及 R2 到 BY HERA CPR ANY HE. {ASE RI 到 R2 的 链 路 为 数据 
分 组 (但 不 是 ACK) 引入 每 分 组 1s 的 带宽 延迟 。 描 述 这 样 一 种 情况 ， 其 中 即使 A 总 有 数据 要 发 送 ， 
R1 到 R2 的 链 路 利用 率 也 没有 达到 100%, (提示 : 假设 A 的 CongestionWindow 从 N 增加 到 N 十 1. 
其 中 NN 是 R1 的 队列 长 度 。) 

你 是 一 个 因特网 服务 提供 商 ， 你 的 客户 主机 直接 连 到 你 的 路 由 器 上 ， 你 知道 一 些 主机 正在 使 用 实验 
性 的 TCP， 而 且 猜 想 有 些 主机 可 能 正在 使 用 无 拥塞 控制 的 “ 贪 焚 的 ”TCP。 你 可 以 在 路 由 器 上 做 号 
些 测 量 来 确定 一 个 客户 根本 没有 使 用 慢 启 动 ? 如 果 一 个 客户 只 在 启动 时 使 用 慢 启动 但 不 是 超时 发 
生 后 ， 你 能 检测 到 吗 ? 

使 TCP 拥塞 控制 机 制 失败 通常 需要 发 送 方 的 显 式 协作 。 然 而 .考虑 大 数据 传输 的 接收 方 ， 使 用 改进 
为 尚未 到 达 的 ACK 分 组 的 TCP。 这 么 做 可 能 是 因为 并 不 需要 数据 的 全 部 内 容 , 或 者 是 因为 丢失 的 数 
据 能 够 在 后 续 的 一 次 独立 传输 中 被 恢复 。 这 种 接收 方 的 行为 对 会 话 中 的 拥塞 控制 特性 有 什么 影响 ? 
你 能 设计 出 一 种 修改 TCP 的 方法 ， 以 避免 发 送 方 以 这 种 方式 被 利用 吗 ? 

考虑 图 6-28 中 的 TCP 轨迹。 分 别 确定 在 启动 时 进行 的 慢 启动 的 时 间 区 间 、 超 时 后 的 慢 启动 的 时 间 区 
间 以 及 线性 增加 的 拥塞 避免 的 时 间 区 间 。 解释 T==0. 5 一 1.9 期 间 将 发 生 什么 事情 。 产 生 这 种 轨迹 的 
TCP 版 本 包含 一 个 图 6-11 的 TCP 中 没有 的 性 质 ， 这 个 性 质 是 什么 ”这 个 轨迹 和 图 6-13 中 的 轨迹 都 
缺乏 一 个 性 质 ， 这 个 性 质 是 什么 呢 ? 





T T 


LO 20 #30 40 50 60 70 
时 间 ( 秒 ) 


图 6-28 习题 27 AY TCP 轨迹 


假设 你 正在 一 条 3KBps 的 电话 链 路 上 下 载 一 个 大 文件 ， 软 件 上 显示 一 个 每 秒 平 均 字 节 的 计数 器 

TCP 拥塞 控制 和 偶尔 的 分 组 丢失 如 何 使 计数 器 产生 波动 ? 假设 只 有 总 RTT 的 1/3 花 在 电话 链 路 上 

假设 TCP 用 于 一 条 存在 丢失 的 链 路 ， 该 链 路 平均 每 4 个 数据 段 中 丢失 一 个 。 假 设 延 迟 带 宽 积 窗口 尺 

寸 远大 于 4 个 数据 段 。 

(a) 当 我 们 启动 一 个 连接 时 会 发 生 什 么 ? 我 们 到 达 过 拥塞 避免 的 线性 增加 阶段 吗 ? 

(b) 不 使 用 来 自 路 由 器 的 显 式 反 馈 机 制 ，TCP 有 办 法 区 分 拥塞 丢失 和 链 路 丢失 吗 (至 少 在 短 时 间 
内 )? 

(c) 假设 TCP 发 送 方 确实 可 靠 地 从 路 由 器 获得 显 式 的 拥塞 控制 指示 。 假 设 上 面 的 链 路 是 普通 的 ， 要 
支持 远大 于 4 个 数据 段 的 窗口 尺寸 是 可 行 的 吗 ? TCP 必须 做 些 什 么 呢 ? 

假设 两 个 TCP 连接 共享 一 条 经 过 路 由 器 R 的 路 径 。 路 由 器 的 队列 长 度 为 6 个 数据 段 ， 每 个 连接 有 固 

定 的 3 个 数据 段 的 拥塞 窗口 。 这 些 连 接 不 使 用 拥塞 控制 。 第 三 个 TCP 连接 现在 也 试图 通过 路 由 器 R. 


, 且 不 用 拥塞 控制 。 描 述 这 样 一 种 情景 ， 至 少 在 一 小 段 时 间 内 ， 第 三 个 连接 没有 得 到 任何 可 用 的 带宽 ， 


前 两 个 连接 继续 各 占用 带宽 的 50%。 如 果 第 三 个 连接 使 用 慢 启动 会 发 生 问 题 吗 ? 就 前 两 个 连接 部 分 
而 言 ， 完 全 的 拥塞 避免 怎样 才 有 助 于 解决 这 个 问题 ? 


. 假设 一 个 TCP 连接 有 大 小 为 8 个 报 文 段 的 窗口 ， 一 个 RTT 为 800ms， 发送 方 以 每 100ms 一 个 报 文 段 
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的 固定 速率 发 送 报 文 段 ， 接 收 方 以 同伴 的 速率 无 延迟 地 返回 ACK. 一 个 报 文 段 丢失 了 ， 快速 重 传 算 
法 根据 收 到 的 第 三 个 重复 ACK， 检 测 到 这 一 丢失 。 当 重 传 分 组 的 ACK 最 终 到 达 时 ， 在 下 列 情况 下 、 
方 ibs 共 损 失 了 了 多 少时 间 (与 无 丢失 传输 相 比 )? 

(a) 发 送 方 在 滑动 窗口 再 次 向 前 主动 之 前 等 待 重 传 琉 失 分 组 的 ACK., 

(b) ree 方 用 相继 到 达 的 每 个 重复 ACK 作为 它 可 以 将 窗口 向 前 滑动 一 个 数据 段 的 指示 


32. 本 童 中 叙述 了 加 性 增 是 使 拥 早 控制 机 制 稳定 的 必要 条 件 ,， 简 述 如 果 所 有 增加 都 是 指数 级 的 ， 就 可 能 


引起 特殊 的 不 稳定 性 .就 是 说 ，TCP 在 CongestionWindow 增长 到 超过 CongestionThreshold Ja. 4 
续 使 用 慢 启 动 


33. 讨论 标记 一 个 分 组 (如 在 DECDi 机 制 中 ) 和 丢弃 分 组 〈 如 在 RED 网 关中 不 执行 ECN) & A HYF. 
34. 考虑 一 个 RED 网 关 ， 其 平均 队列 长 度 在 两 个 阅 值 中 间 且 MaxP = 0.01 


Ca) 分 别 计算 count = 1 和 count 100 时 的 丢弃 概率 Pen 

Ch) 计算 前 50 个 分 组 无 丢弃 的 概率 。 注 意 这 个 概率 等 于 (1 一 PI) XX CP) 
Bi — 4 RED 网 关 ， 其 平均 队列 长 度 在 两 个 闽 值 中 间 日 MaxP= p 

Cad 计算 前 个 分 组 不 被 丢弃 的 概率 

Cb) R p， 使 得 满足 前 7 个 分 组 不 被 丢弃 的 购 率 是 a。 


;. 解释 在 RED 网 关中 设置 MaxThreshold=2 X MinThreshold 的 直观 原因 。 
37. 在 RED 网 关中 ， 解 释 为 什么 事实 上 MaxThreshold 比 可 用 缓冲 池 的 实际 长 度 小 。 
;8. 解释 容 迪 突 发 性 与 控制 网 络 拥塞 之 问 的 基本 冲突 


为 什么 RED 网 美的 亚 弃 概率 了 在 是 简单 地 从 MinThresh 时 的 P=0 线性 增长 到 MaxThresh 时 的 P=1? 

» fE RFC 3168 中 定义 的 显 式 搜 窒 通知 CECN) 查 用 1 比特 指示 端点 是 否 支 持 ECN。 试 分 析 没 有 这 1 比 
特 的 不 利 影响 

:在 TCP gisa 中 .用 一 个 RTT 间隔 内 传送 的 数据 其 除 以 [的 长 度 计 算 ActualRate, 
(a) 说 明 对 了 se TCP， 如 果 窗 口 尺寸 保持 不 变 ， DIS A RA aT IY HE BE AE. OU LE — 4S RTT 


fi (ia A if TEAM) Ae tae UL a AN METI, (BLE Ae Dy We BN — > ACK 后 就 立即 传送 每 个 数据 段 ， 分 组 没 
有 丢失 且 按 顺序 传送 ， 所 有 数据 段 的 长 度 相 同 ， 且 该 路 径 上 的 第 一 条 链 路 不 是 最 慢 的 链 路 ， 
Cb) 给 出 时 间 线 图 示 ， 表 示 上 上 面 每 个 RTT 传送 的 数据 量 可 能 小 于 CongestionWindow。 


2. 假设 一 个 TCP Vegas 连接 测量 第 一 hs RTT., JPK BaseRTT 的 值 设置 为 测 基 到 的 RTT 值 ， 但 


po 条 链 路 发 生 故 陵 。 于 是 所 有 后 续 的 通信 其 被 路 由 选择 到 了 另 一 条 RTT WIR RTT 两 倍 的 路 

fÉ ke TEP Vegas 会 对 此 做 何 反 应 ? CongestionWindow 的 值 有 什么 变化 ?假设 没有 实际 的 超时 发 生 ， 

凋 且 8 远 小 于 ExpectedRate 的 初始 值 ， 

BEL be 1s 网 络 延 迟 的 下 而 两 个 原因 (假设 ACK se HNE D ; 

一 个 中 国 路 由 融 ， 它 的 带 帝 延迟 为 每 个 分 组 用 1s 输出 ， 且 无 竞争 的 通令 

”一 个 中 间 路 由 融 ， 它 的 带 览 延迟 为 每 个 分 组 用 100ms 输出 ， 且 周 定 地 将 10 个 分 组 (来 自 其 他 源 ) 
补充 到 队列 中 ， ` 

(a) 通常 ， 传 输 协 议 可 能 怎 伴 区 分 这 上 丙种 情况 ? 

(b) 假设 TCP Vegas 在 上 上述 连 接 上 发送 ，CongestionWindow 的 初始 值 为 三 个 分 组 ， 在 每 种 情况 下 

CongestionWindow 会 发 生 什么 变化 ?假设 BaseRTT = 1s 上 且 8 等 于 每 秒 一 个 分 组 。 


.许多 实时 nein WPI AE FE ak eI HE, Wilkie fete UDP 上 而 不 是 TCP 上 。 然 而 ， 这 就 意味 着 


视频 应 用 不 受 TCP 拥塞 控制 算法 的 限制 .这 会 对 TCP 流量 带 来 什么 影响 ”该 因果 关系 是 明确 的 吗 ? 
好 在 这 些 视频 应 用 通常 使 用 RTP CUE 5.4 节 )， 它 导致 RTCP 接收 方 报告 vpn 到 源 。 这 些 报告 被 周 
其 性 地 发 送 例如， 每 秒 钟 一 次 ) 并且 包含 在 最 后 报告 期 间 成 功 接 收 分 组 的 下 分 比 。 描 述 在 TCP A 
容 的 方法 中 源 如 何 使 用 这 些 信 息 米 调整 其 发 送 速 率 


5 讨论 为 什么 拥塞 控制 问题 在 天 联网 层 比 在 ATM 层 更 好 管理 ， 至 少 在 互联 网 仅 有 一 部 分 是 ATM 时 是 


这 样 的 。 在 专用 的 IP-overATM 网 络 中 ,拥塞 控制 在 信 元 层 还 是 在 TOP 层 更 好 管理 ? 为什么? 
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考虑 图 6-23 中 的 分 类 。 

(a) 给 出 一 个 非 容 忍 型 /速率 自 适 应 型 (intolerant/rate adaptive) 实时 应 用 程序 的 例子 

(b) 解释 为 什么 你 TERIM FUER EMH EDA EPE a8 

(c) 尽管 有 b) 中 的 解释 ， 仍 要 给 出 一 PEE 容忍 型 / 非 自 适 应 型 (tolerant/nonadaptive) 应 用 
的 例子 。( 提 示 : 容忍 即使 再 小 的 丢失 ， 也 是 容 岂 委 失 的 应 用 ;你 震 要 将 速率 自 适应 解释 为 适应 
重大 带宽 变化 的 能 力 。) 




















一 个 给 定 流 的 传输 时 间 表 ( 见 表 6-3) 列 出 每 秒 中 发 送 分 组 的 数目 。 表 6-3 习题 47 的 传输 时 间 表 
该 流 必须 保持 在 令 牌 桶 过 滤器 的 范围 内 。 对 于 下 列 令 牌 速率 ， 流 需 wa o | 分 组 发 送 
要 的 令 牌 桶 深度 是 多 少 ? 假设 桶 开始 时 是 满 的 ， 0 8 
(a) 每 秒 2 个 分 组 。 l 4 
(b) 每 秒 4 个 分 组 。 2 1 
一 个 给 定 流 的 传输 时 间 表 ( 见 表 6-4) 列 出 每 秒 中 发 送 分 组 的 数 日 。 3 人 
E O de ok > 牌 速 率 的 函数 1 6 
必需 的 桶 深度 D。 注 意 ,r 只 能 取 正 整数 值 。 假 设 桶 开始 时 是 满 的 。 l 





假设 一 台 路 由 器 已 经 接收 了 TSpecs 流 ， ad 6-5 所 示 ， 今 牌 速率 为 每 秒 r 个 分 组 旦 桶 深度 为 B 个 
分 组 的 令 牌 桶 过 滤器 来 描述 它 。 所 有 流 都 在 同一 个 方向 ， 路 由 器 每 0. 1s 转发 一 个 分 组 

(a) 一 个 分 组 可 能 面临 的 最 大 延迟 是 多 少 ? 

(b) 假设 第 三 个 流 一 直 以 最 大 速率 均匀 地 发 送 分 组 ， 路 由 需 在 2. Os 内 能 从 该 流 发 送 分 组 的 最 小 数目 
































是 多 少 ? 
表 6-4 习题 48 的 传输 时 间 表 表 6-5 习题 49 的 TSpecs 
时 间 Cs) 分 组 发 送 r B 
0 5 ] | 10 
2 1 
z 7 4 | 1 
4 6 
5 1 





. 假设 一 台 RSVP 路 由 咒 突 然 丢 失 了 它 的 预定 状态 ， 但 仍 在 运行 。 


Ca) 如 果 路 由 器 用 单个 FIFO 队列 处 理 预 定 的 和 非 预定 的 流 ， 已 预定 的 流 会 出 现 什么 情况 ? 
(b) 如 果 路 由 器 用 加 权 公 平 排队 隔离 预定 的 和 非 预定 的 通信 量 ， 已 预定 的 流 会 出 现 什么 情况 ? 
(c) 最 终 ， 这 些 流 的 接收 方 会 请 求 重 新 开始 它们 的 预定 。 给 出 这 些 请 求 被 拒绝 的 一 种 情况 。 
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在 获得 数据 之 前 就 构建 理论 是 大 错 特 错 的 。 


问题 : 我 们 用 数据 做 什么 ? 


从 网 络 的 观点 看 ， 应 用 程序 间 彼 此 发 送 消息 ， 每 条 消息 只 是 一 个 未 解释 的 字 节 串 。 然 
而 ， 从 cn REHM re 的 数据 (data) 一 一 整 型 数组 、 视 频 
帧 、 文 本 行 、 数 字 图 像 ， 等 等 。 换 名 话说 ， 这些 字 节 是 有 含义 的 。 我 们 现在 来 考虑 这 样 一 


个 问题 GRINA 换 成 字 节 串 的 各 种 不 同类 型 的 数据 进行 编码 。 从 许多 
方 面 来 看 ， 这 类 似 于 我 们 在 2.2 季 见 到 的 把 字 节 串 编码 为 电磁 信号 的 问题 

回顾 第 2 章 对 编码 的 讨论 ， 实质 上 涉及 两 个 问题 。 第 一 是 接收 方 能 从 信号 中 提取 出 与 
传送 方 发 送 的 消息 相同 的 消息 ， 这 就 是 组 帧 的 问题 。 第 二 是 尽 可 能 地 提高 编码 效率 。 把 应 
用 程序 数据 编码 为 网 络 消息 时 邦 存 在 这 两 个 问题 。 

为 了 证 接收 方 提取 发 送 方 发 来 的 消息 ， 就 出 现 了 发 送 方 和 接收 方 要 统一 消息 格式 的 问 
题 ， 通 常 称 为 表示 格式 (presentation format)。 例 如 ， 发 送 方 要 给 接收 方 发 送 一 个 整 型 数 
组 ， 那 么 双方 必须 协商 每 个 整数 是 什么 样 的 表示 格式 〈 比 如 ， 长 度 为 多 少 字 节 ， 采 用 怎样 
的 排列 方式 ， 以 及 最 高 有 效 位 最 先 到 达 还 是 最 后 到 达 )， 以 及 在 数组 中 有 多 少 元 素 。7. 1 
站 讲述 传统 计算 机 数据 的 各 种 编码 ， 如 整数 、 浮 点 数 、 字 符 串 、 数 组 和 结构 体 。 还 有 一 些 
为 多 媒体 数据 制定 的 格式 ， 例 如 视频 一 般 是 用 运动 图 像 专家 组 (Moving Picture Experts 
Group, MPEG) 所 创建 的 渡 种 格式 传输 ， 而 静止 图像 通常 用 联合 图 像 专 家 组 Joint Pho- 
tographic Experts Group, JPEG) 格式 传输 。 在 多 媒体 数据 编码 中 出 现 的 具体 问题 将 在 
7.2 节 讨 论 。 

我 们 需要 考虑 多 媒体 类 型 数据 的 表示 和 压缩 (compression) 两 个 方面 。 我 们 熟知 的 
传输 格式 、 音 频 存 储 格 式 、 视 频 处 理 格式 都 有 这 些 问题 EA 内 容 被 记录 、 被 拍照 或 
者 被 听 到 ， 以 便 接 收 方 可 以 正确 解读 发 送 方 发 送 的 信息 ， 而 且 这 么 做 在 某 种 程度 上 可 以 使 
网 络 不 被 大 量 的 多 媒体 数据 所 流 没 。 

压缩 及 更 普 志 的 编码 效率 问题 由 来 已 入， 可 追溯 到 20 世纪 40 年 代 香 农 关 于 信息 论 的 
早期 工作 。 实际 上 ， 人 们 副 着 两 个 相反 的 方向 努力 。 一 方面 ， 我 们 希望 在 数据 中 加 入 尽 可 
能 多 的 宛 余 ， 以 便 即使 消息 出 现 了 错误 ， 接 收 方 仍 能 提取 出 正确 的 数据 。 我 们 在 2.4 节 的 
差错 检测 和 纠 错 公 中 所 看 到 的 给 消息 添加 多 余 信息 的 做 法 正 是 为 了 这 一 目的 。 另 一 方面 ， 
我 们 希望 尽 可 能 从 数据 中 咕 掉 更 多 的 元 余 ， 以 便 能 用 更 少 的 比特 进行 编码 。 鉴 于 我 们 的 感 
官 和 大 脑 处 理 视觉 和 听觉 信号 的 方式 ， 多 媒体 数据 为 压缩 提供 了 大 量 的 机 会 。 我 们 听 不 见 
高 频 声 音 也 听 不 到 低频 声音 ， 就 像 我 们 不 能 像 注意 一 张大 图 片 一 样 注意 图 像 中 的 所 有 细 
条， 尤其 是 图 像 移 动 时 。 

我 们 有 足够 的 理由 证 明 压 缩 对 网 络 设计 者 是 重要 的 ， 原因 之 一 是 我 们 很 难保 证 处 处 
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: Aye HE ERAI A FERIE ETE i EE YY Dr RE a A AE DE SAT HE DS A GY BH 

+ SA TT SE ma BE UR oo AC OL atl AU i E Sig I Z MRE a 
ciliated 证 一 定量 的 带宽 ,， Fe Te De Fe TP fe a NE MA A AR EE TY TE 
算法 ， 

最 后 ， 表 示 格 式 化 和 数据 压缩 的 一 个 重要 特征 就 是 再 此 发 送 主机 和 接收 主机 处 理 消 息 
数据 中 的 每 个 字 节 。 为 此 ， 表 示 格 式 化 和 压缩 有 时 称 为 数据 操纵 (data manipulation) Jj 
能 。 与 我 们 至 今 看 到 的 大 多 数 协 议 不 同 ， 这 些 协 议 人 处理 信息 时 不 考虑 其 包含 的 内 容 。 由 于 
必须 对 消息 中 数据 的 每 个 字 节 进行 读 、 计 算 和 写 ， 所 以 数据 操纵 会 影响 网 上 端 到 端的 吞吐 
量 。 实 际 上 ， 这 些 操纵 可 能 就 是 影响 奉 吐 革 的 一 些 央 素 ， 


7.1 表示 格式 化 


最 常见 的 网 络 数据 转换 就 是 应 用 程序 使 用 的 表示 法 和 适合 网 络 传输 的 格式 之 回 的 祝 开 
转换 。 通 常 将 这 种 转换 称 为 表示 格式 化 





es 应 用 程序 应 用 程序 
(presentation formatting), Wl 7-1 所 示 ， 数据 数据 
发 送 程序 把 要 传输 的 数据 由 其 内 部 表示 形式 | | 
WATUAMLEROER. Led, —- oo AME 
数据 被 编码 Cencoded) 成 消息 。 在 接收 端 ， 编码 表示 | 解码 表示 
应 用 程序 把 接收 到 的 消息 再 转换 成 它 可 以 处 ae 2 
理 的 表示 形式 ， 也 就 是 说 ,消息 被 解码 (de- 消息 | 消息 |e 消息 | 


coded)。 编 码 有 时 也 称 为 参数 排列 (arpu- 
ment marshalling), ff 4 47 IM th ff Ge A 
(unmarshalling). EREK A RPC 领域 . 客户 端 认 为 它 调用 了 一 个 带 着 一 组 参数 的 过 程 、 
i ES. aR, KEENE, 

尔 也 许 会 问 ， 编 码 问 题 为 什么 如 此 复杂 . 以致 于 要 用 到 像 排列 这 样 的 名 称 。 原 因 之 
ee eh gt aro Kayo eqn aie edi oe 
而 有 些 仍 使 用 它们 自己 的 非 标准 格式 。 即 使 是 像 整 型 数 那么 简单 的 数据 ,不 同体 系 结构 也 
要 使 用 不 同 的 长 度 表 示 (例如 16 位 、32 位 、 sf. Ma arb aE 
示 成 高 端 字 节 序 (big-endian) 形式 〈 一 个 字 的 最 高 有 效 位 在 高 地 址 字 节 中 )， 而 另 一 些 则 
将 整 型 数 表 示 成 低 端 字 节 序 (little-endian) 形式 〈 一 个 字 的 最 高 nied eset 
MIPS 和 PowerPC a 是 高 端 字 节 序 体系 结构 的 例子 ， Intel x86 系列 则 是 低 端 字 节 
序 体系 结构 的 例子 。 图 7-2 中 ， 分别 给 出 整数 34 677 374 的 高 端 字 节 序 表示 法 和 低 端 字 节 
序 表示 法 。 

使 参数 排列 变 得 困难 的 另 一 个 厚 因 是 应 用 程序 用 不 同 的 语言 编写 而且， 即使 你 只 使 
用 一 种 语言 ， 也 可 能 有 不 止 一 个 编译 程序 。 举 例 来 说 ,编译 程序 在 内 存 中 怎样 存放 结构 
(记录 )， 如 组 成 结构 的 字段 之 间 填 充 多 少 位 ， 就 有 很 大 的 自由 度 。 因 而 ， 即 使 计算 机 的 体 
系 结构 和 写 程序 的 语言 都 相同 ， 你 也 不 能 简单 地 把 结构 从 -各 计算 机 传 给 另 一 台 计算 机 ， 
因为 目标 机 上 的 编译 程序 也 许 对 结构 中 字段 的 位 置 做 了 不 同 的 凋 莒 。 


图 7-1 包含 编码 和 解码 应 用 程序 数据 的 表示 格式 化 





O 这 是 《 韦 氏 新 大 学 词典 》 中 对 排列 的 定义 。 
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(2) (17) (34) (126) 


高端 字 节 序 | “00000010 | 00010001 | 00100010 | 01111110 | 


(126) (34) (17) (2) 
低 端 字 节 序 ouio | 00100010 00010001 00000010 i 
低地 址 高 地 址 


图 7-2 整数 34 677 374 的 高 端 字 节 序 和 低 端 字 节 序 的 字 节 顺序 


7. 1.1 分 类 方法 
尽管 任何 做 过 参数 排列 的 人 都 会 告诉 你 ， 参 数 排列 不 会 将 火箭 科学 这 样 难 的 理论 包含 
出 选择 。 我 们 首先 给 
日 它 


足以 涵盖 大 多 数 


进去 ， 它 只 是 摆弄 比特 位 的 一 桩 小 事 ， 但 你 震 要 在 许多 设计 方案 中 做 
出 参数 排列 系统 的 简单 分 类 方法 。 以 下 虽 不 是 唯一 可 行 的 分 类 方法 ， 
重要 的 可 供 选 择 的 方案 

1. 数据 类 型 

第 一 个 问题 是 系统 打算 支持 什么 样 的 数据 类 型 。 通 常 ， 我 们 可 以 将 由 参数 排列 机 制 支 
持 的 类 型 分 为 三 级 ,每 一 级 都 使 参数 排列 系统 而 对 更 复杂 的 任务 。 

在 最 低级 ， 参 数 排列 系统 对 基本 类 型 Chase type) 的 某 个 集合 进行 操作 。 通 常 ， 基 本 
类 型 包括 整数 、 浮 点 数 和 字符 。 系 统 还 可 以 支持 序数 类 型 和 布尔 型 。 如 上 所 述 ， 基本 类 型 
集合 的 含义 是 指 ， 编 码 进 程 必须 能 将 每 一 基本 类 型 从 一 种 表示 法 转换 为 另 一 种 表示 法 ， 如 
把 整 型 从 高 端 字 节 序 表示 转换 为 低 端 字 节 序 表示 。 

向 上 一 级 是 局 平 类 型 Cflat type): 结构 和 数组 。 扁 平 类 型 初 看 起 来 并 不 会 使 参数 排列 
系统 复杂 化 ， 实 则 不 然 。 问 题 是 ,为 了 按 字 的 边界 对 齐 字段 ， 编 译 程序 在 编译 应 用 程序 时 
习惯 于 在 组 成 结构 的 字段 之 间 加 入 填充 。 参数 排列 系统 通常 将 结构 压缩 pack) 使 得 它们 
不 合 填 充 。 

在 最 高 级 ,参数 排列 系统 必须 处 理 复 杂 类 型 (complex type): 使 用 指针 建立 的 类 
型 。 也 就 是 说 ,一 个 程序 要 发 送 给 另 一 个 程序 的 数据 结构 可 以 不 包含 在 某 个 单一 的 结构 
中 ， 而 可 能 包含 从 一 个 结构 指向 另 一 结构 的 指针 。 TER :包含 指针 的 复杂 类 型 的 一 个 很 
好 的 例子 。 显然. 数据 编码 融 必 须 为 网 上 传输 准 
好 数据 结构 ， 因 为 指针 是 通过 内 存 寻 址 实现 的 ， + 
H, EAE- RII EEA A etr | 图 
意味 着 在 另 一 台 计算 机 上 有 相同 的 驻 留 地 址 。 换 名 | OOO 
话说 ， 参 数 排列 系统 必须 串 行 化 (serialize) CIF) | [上 一 -国光 加 
复杂 数据 结构 。 

Bit ”总 之 ,参数 排列 与 类 型 系统 的 复杂 化 程度 


pe 了 
参数 排列 程序 
有 关 ， 它 的 任务 通常 包括 基本 类 型 转换 、 结 构 压 (Sai 上 程序 


缩 、 复 杂 数 据 结构 线性 化 ， 它 们 共同 构建 了 一 个 


可 以 在 网 上 传输 的 连续 消息 。 这 个 任务 如 图 7-3 NN | | | 


所 示 。 图 7 3 参数 排列 转换、 压缩 和 线性 化 


但 








应 用 程序 数据 结构 
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2. 转换 策略 

类 型 系统 一 旦 建立 ， 接 下 来 要 讨论 的 问题 就 是 参数 排列 程序 采用 什么 样 的 转换 策略 
一 般 有 两 个 选择 : 标准 中 间 形 式 (canonical intermediate form) 和 接收 方 调整 (receiver 
makes-right)。 接 下 来 ,我 们 依次 讨论 每 一 种 转换 策略 

标准 中 间 形 式 的 概念 就 是 要 确定 每 一 种 类 型 的 所 有 外 部 表示 法 。 在 发 送 数 据 前 ,发 送 
主机 将 数据 由 其 内 部 表示 转换 成 这 种 数据 的 外 部 表示 ， 而 在 接收 数据 的 过 程 中 ， 接 收 主机 
又 把 这 种 数据 的 外 部 表示 转换 成 其 本 地 的 表示 。 为 了 说 明 这 种 思想 ,我们 来 芍 虑 整 型 数 
据 ， 其 他 数据 类 型 按 类 似 的 方法 处 理 。 你 可 以 把 整 型 数 说 明 为 要 用 于 外 部 表示 的 高 端 字 节 
序 形式 。 发 送 主 机 必须 把 它 发 送 的 每 个 整数 翻译 成 高 端 字 节 序 形式 ， 而 接收 主机 必须 把 高 
端 字 节 序 形式 的 整数 翻译 成 它 所 使 用 的 一 种 表示 方法 。( 这 正 是 在 因特网 中 对 协议 首部 做 
的 工作 。) 当然 ,发送 主机 也 许 已 经 使 用 了 高 端 字 节 序 形式 . 在 这 种 情况 下 就 不 需要 再 转 
KT. 

另 一 个 选择 有 时 称 为 接收 方 调整 ， 它 允许 发 送 方 用 其 内 部 格式 传输 数据 ; 发 送 方 不 进 
行 基本 类 型 的 转换 ， 但 通常 要 压缩 和 展开 较 复 杂 的 数据 结构 . 然后 接收 方 负责 把 数据 从 发 
送 方 的 格式 翻译 成 其 本 地 的 格式 。 用 这 种 策略 的 问题 是 ， 每 台 主 机 必须 准备 好 转换 来 自 所 
有 其 他 体系 结构 的 数据 。 这 在 联网 技术 中 被 认为 是 一 个 NXN 解决 方案 (N-by-N solu- 
tion): N 个 体系 结构 中 的 每 一 台 计 算 机 都 必须 能 处 理 所 有 N 个 体系 结构 的 数据 。 相反 . 
在 一 个 使 用 标准 中 间 形 式 的 系统 中 ,每 台 主 机 只 需要 知道 它 自己 的 表示 法 和 另 一 特定 的 表 
示 法 (一 种 外 部 表示 法 ) 之 间 怎 么 转换 。 

使 用 共同 的 外 部 格式 是 正确 的 做 法 吗 ? 当然 这 是 网 络 界 过 去 25 年 来 的 习惯 看 法 。 然 
而 ,答案 并 不 总 是 肯定 的 。 事 实证 明 对 各 种 基本 类 型 不 存在 那么 多 不 同 的 表示 法 . 或 者 说 
NN 不 会 那么 大 。 另 外 ,更 普遍 的 情况 是 同一 类 型 的 两 台 计 算 机 彼此 通信 . 在 这 种 情形 下 ， 
如 果 把 一 种 体系 结构 表示 的 数据 翻译 成 一 些 另 外 的 外 部 表示 ， 而 在 接收 方 又 必须 反 过 来 把 
数据 翻译 成 相同 体系 结构 的 表示 ， 似 乎 是 思 答 的 。 

第 三 种 选择 是 〈 尽 管 我 们 知道 不 存在 使 用 它 的 系统 ): 如 果 发 送 方 知道 接收 方 有 同样 
的 体系 结构 就 使 用 接收 方 调整 法 ; 如 果 两 台 计 算 机 采用 不 同体 系 结构 ， 就 合用 某 种 标准 中 
间 形 式 。 这 时 ， 发 送 方 如 何 了 解 到 接收 方 的 体系 结构 ? 它 可 以 从 一 台 名 字 服 务 器 或 者 首先 
使 用 一 个 简单 的 测试 例子 看 是 否 产 生 相 应 的 结果 来 获得 该 信息 。 

3. 标记 

参数 排列 中 的 第 三 个 问题 是 接收 方 如 何 知 道 它 接收 的 消息 中 包含 什么 类 型 的 数据 ， 有 
两 种 常用 的 方法 : 带 标 记 (tagged) 数据 和 不 带 标 记 (untagged) 数据 ， 带 标记 的 方法 十 
分 直观 ， 所 以 我 们 首先 来 介绍 它 。 

标记 是 指 包 含 在 消息 中 的 任何 附加 信息 〈 除 了 基本 类 型 具体 表示 之 外 的 信息 )， 它 有 
助 于 接收 方 解 码 消息 。 有 几 种 标记 可 以 包含 在 消息 中 。 例如， 每 个 数据 项 可 以 增加 一 个 类 
型 (type) 标记 。 类 型 标记 说 明 其 后 跟着 的 值 是 整数 、 浮 点 数 或 其 他 类 型 。 另 一 个 例子 就 
是 长 度 (length) 标记 。 这 样 的 标记 用 于 说 明 一 个 数组 元 素 的 个 数 或 一 个 整 型 数 的 长 度 
第 三 个 例子 是 体系 结构 (architecture) 标记 、. | 类 型 Kites a pe | 
它 可 以 与 接收 方 调整 策略 相 结合 ， 说 明生 成 消 INT | 
息 中 所 含 数据 的 体系 结构 。 图 7-4 描述 了 如 何 用 图 7-4 用 带 标记 消息 编码 的 32 fe HR 
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带 标记 消息 的 方法 编码 一 个 简单 的 32 位 整数 。 

当然 ， 另 一 个 方法 就 是 不 用 标记 。 那 么 ， 在 这 种 情况 下 ， 接 收 方 怎样 知道 如 何 解 码 数 
据 呢 ? 它 知道 如 何 解码 是 因为 程序 中 已 经 指定 。 换 句 话 说， 如果 你 调用 一 个 带 参数 的 远程 
过 程 ， 其 参数 为 两 个 整数 和 一 个 浮 点 数 ， 那 么 这 个 远程 过 程 就 不 必 检 查 标记 以 了 解 正在 接 
收 的 类 型 数据 ， 它 只 假设 消息 包含 两 个 整数 和 一 个 浮 点 数 ， 并 做 相应 的 解码 。 对 于 大 多 数 
情况 ， 这 样 做 是 有 效 的 ， 只 在 发 送 可 变 长 数组 时 例外 。 在 这 种 情况 下 ， 一 般 用 长 度 标 记 来 
说 明 数 组 的 长 度 。 

不 带 标 记 数 据 的 方法 也 是 值得 关注 的 ， 它 意味 着 表示 格式 化 是 真正 端 到 端的 。 对 于 一 
些 中 间 代 理 而 言 ， 如 果 不 标记 数据 ， 就 不 可 能 解释 消息 。 你 也 许 会 问 ， 中 间 代 理 为 什么 需 
要 解释 消息 ?这 是 因为 为 解决 系统 设计 不 能 处 理 的 问题 而 提出 的 特定 解决 方案 往往 会 导致 
奇怪 的 事情 发 生 。 不 良 网 络 设计 的 问题 不 在 本 书 讨论 的 范围 。 

4. HE 

桩 是 实现 参数 排列 的 一 段 代码 。 一 般 桩 是 用 来 支持 RPC 的 。 在 客户 端 ， 桩 把 过 程 参 
数 排列 成 可 以 通过 RPC 协议 传输 的 消息 。 在 服务 器 端 ， 桩 反 过 来 把 这 个 消息 转换 成 一 组 
用 来 调用 远程 过 程 的 参数 。 桩 或 者 被 解释 或 者 被 编译 。 

在 基于 编译 的 方法 中 ， 每 个 过 程 都 有 一 个 定制 的 客户 桩 和 服务 器 桩 。 虽 然 桩 可 由 人 工 
设计 ， 但 它们 通常 是 由 桩 编译 程序 根据 过 程 接口 的 描述 产生 的 。 这 个 情形 如 图 7-5 所 示 。 
由 于 桩 是 编译 的 ， 所 以 通常 它 的 效率 很 高 。 在 基于 解释 的 方法 中 ， 系 统 提供 通用 的 客户 桩 
和 服务 器 桩 ， 它 们 都 由 过 程 的 接口 描述 来 设置 参数 。 因 为 这 种 描述 很 容易 修改 ， 所 以 解释 
的 桩 优点 是 具有 灵活 性 ， 而 编译 的 桩 在 实际 中 更 常见 。 


/ 
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7.1.2 例子 (XDR, ASN. 1, NDR) 


现在 ， 我 们 按照 分 类 方法 简要 地 描述 三 种 流行 的 网 络 数据 表示 法 ， 并 用 整数 基本 类 型 
来 说 明 每 个 系统 是 如 何 工 作 的 。 








1. XDR 

外 部 数据 表示 (External Data Representations XDR) 是 用 在 SunRPC 上 上 的 网 络 格 
式 。 在 刚才 介绍 的 分 类 方法 中 ，XDR 支持 以 下 内 容 : 

-BRER EL Sh AY A SOC 类 型 系统 

。 定义 一 个 标准 中 间 形 式 ， 

© 不 使 用 标记 (除了 说 明 数 组 的 长 度 外 )， 

。 使 用 编译 的 桩 。 

一 个 XDR 整数 是 编码 一 个 C 整数 的 32 位 数据 项 。 用 两 个 辅助 记号 表示 它 . 这 两 个 二 
助 记号 是 : C 整数 的 最 高 有 效 字 节 在 XDR 整数 中 的 首 字 节 ，C MAA RI AS TE 
XDR 整数 中 的 第 4 字 节 。 就 是 说 ，XDR 对 整数 使 用 高 端 字 节 序 格式 。 就 像 C 代码 一 样 ， 
XDR 婚 支 持 有 符号 整数 也 支持 无 符号 整数 ， 

XDR 表示 可 变 长 数组 时 ， 首 先 给 出 说 明 数 组 中 元 素 个 数 的 无 符号 整数 (4 个 字 节 ). 
再 跟随 一 些 相 应 类 型 的 元 素 。XDR 按 结构 分 量 在 结构 中 的 说 明 顺 序 来 编 伺 。 对 数组 和 结 
构 的 每 一 个 元 素 或 分 量 的 大 小 都 用 4 个 字 节 的 倍数 表示 。 较 小 的 数据 类 型 用 全 0 填充 到 ! 
个 字 节 。“ 填 充 到 4 个 字 节 ”的 规则 有 一 个 例外 ， 对 于 字符 类 型 .每 个 字 节 编码 一 个 字符 . 

下 面 代码 段 给 出 一 个 C 结构 体 (item) 以 及 编码 /解码 此 结构 的 XDR 例 程 (xdr _ i- 
tem) 的 例子 。 图 7-6 是 XDR 关于 这 个 结构 体 的 实际 表示 . 在 这 个 结构 体 中 字段 name 是 
7 个 字符 长 ， 数 组 list 中 有 3 MEL. 

#define MAXNAME 256; 


#define MAXLIST 100: 


struct item | 


int count; 
char name[MAXNAME J: 
int list[MAXLIST]; 
l: 
bool_t 


xdr_item(XDR *xdrs, struct item *ptr) 

















return(xdr_int(xdrs, &ptr->count) && 
xdr_string(xdrs, &ptr->name, MAXNAME) && 
xdr_array(xdrs, Aptr->list, &ptr-scount, MAXLIST, 
sizeof(int), xdr_int)); 
| 
+ Count *~|- -一 一 Name 一 -l 
人 a | 
3 7 J O HN S ON} 
AEE S EEE DE i } 
= 一 List — —— 
A aT. aaie ae a ee E a eS 
3 497 8321 265 | 
‘ 。 图 7-6 XDR 中 一 个 结构 体 编码 的 例子 


在 这 个 例子 中 ，xdr array, xdr int 和 xdr_string 是 XDR 分 别 为 编码 和 解码 数组 、 整 
数 和 字符 串 提 供 的 基本 函数 。 参 数 xdrs 是 一 个 环境 变量 ，XDR 用 它 跟 踪 消 息 处 理 过 程 中 
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的 位 置 . 它 包 含 一 个 标志 来 说 明 这 个 例 程 是 用 于 编码 消息 还 是 用 于 解码 消息 。 换 句 话说， 
子 程序 xdr_item 姬 可 以 用 在 客户 端 又 可 以 用 在 服务 器 端 。 注 意 ， 应 用 程序 员 既 可 以 手工 
编写 xdr_item 例 程 ， 也 可 以 使 用 称 为 rpcgen (未 显示 ) 的 桩 编译 副 产 生 这 个 编码 /解码 
例 程 。 在 后 一 种 情况 中 ，rpcgen 用 定义 数据 结构 item 的 远程 过 程 作为 输入 ， 并 输出 相应 
AY BE < 
ipit XDR 到 底 怎 样 执行 be a 于 数据 的 复杂 性 。 在 整 型 数组 的 简单 情况 下 ， 其 中 每 

个 整数 必须 按 一 个 字 节 到 另 一 个 字 节 的 顺序 转换 ， 每 个 字 节 平均 需要 3 条 指令 ， 意 味 着 整 
个 数组 的 转换 受 存储 器 限制 。 每 个 字 节 进行 更 复杂 的 转换 时 需要 更 多 指令 ， 这 会 导致 其 受 
CPU 限制 且 内 此 而 以 低 于 内 存 带 宽 的 数据 率 工 作 。 

2. ASN. 1 

抽象 语法 标记 1 (Abstract Syntax Notation One. ASN.1) 是 一 个 ISO 标准 ， 它 定义 

网 上 发 送 数 据 的 一 种 表示 方法 。ASN. 1 的 专用 表示 方法 部 分 称 为 基本 编码 规则 (Basic 

Encoding Rules. BER), ASN. 1 支持 无 函数 指针 的 C 类 型 系统 ， 定 义 标 准 中 间 形 式 ， vl 
使 用 类 型 标记 。 它 的 桩 或 者 被 编译 或 者 被 解释 。ASN. 1 BER 为 人 们 所 知 的 原因 之 一 是 
被 用 于 因特网 标准 的 简单 网 络 管理 协议 (Simple Network Management ee, 
SNMP). 

ASN. 1 用 三 元 组 的 形式 表示 每 个 数据 项 : 

(tag, length, value) 

BIR ASN. 1 允许 定义 多 字 节 的 标记 ， 但 tag 通常 是 一 个 8 位 的 字段 。length 字段 说 明 val- 
ue Bh Abe Fan 人 length。 复 合 数据 类 型 (比如 结构 体 ) DA aa a ie BS AE AS 
数据 类 型 来 构造 ， 如 图 7-7 所 示 。 


类 型 KE | 类 型 | 长度 -一 数值 一 =| 类 型 | 长 度 一 一 数值 一 -| 
二 一 数值 — = 


图 7-7 E ASN. 1/BER P ik E HE v7 hy A 2K 








如 果 value 小 于 或 等 于 127 字 节 ， 多 用 单字 节 来 指定 length。 因 此 ， 如 图 7-8 所 
示 ， 一 个 32 位 整数 被 编码 为 1 字 节 type、1 ZW length 以 及 4 字 节 编码 整数 。 在 一 个 整 
数 的 情况 下 , 正如 XDR 表示 法 那样 ，value 本 身 用 2 的 补 码 表示 而 且 用 高 端 字 节 序 形式 。 
记 住 即 使 整数 的 value 在 XDR 和 ASN. 1 中 用 完全 相同 的 方法 表示 ,但 XDR 表示 中 既 没 
有 与 整数 相关 的 type 标记 也 没有 length 标记 。 这 两 个 标记 在 消息 中 都 占 一 定 空间 ， 更 重 
要 的 是 ， 它 们 都 需要 在 参数 排列 和 还 原 的 过 程 中 处 理 。 这 是 ASN. 1 不 如 XDR 效率 高 的 一 
个 原因 。 为 外 ， 每 个 数据 值 的 前 面 有 一 个 length 字段 ， 这 就 意味 着 数据 值 不 可 能 正好 落 在 
日 然 凶 和 节 的 边界 上 (例如 ,一 个 整数 在 一 个 字 的 边界 开始 )。 这 使 编码 /解码 处 理 更 加 
复杂 。 

oh value 大 于 或 等 于 128 FW. 那么 用 多 个 字 节 来 说 明 其 length。 这 时 你 也 许 要 问 ， 
为 什么 一 个 字 节 能 说 明 至 多 127 个 字 节 而 不 是 256 个 字 节 的 长 度 ?” 原 因 是 length 字段 中 的 
l aae length 字段 有 多 大 。 第 8 位 为 0 指示 length 字段 为 1 字 节 。 为 了 说 明 更 长 的 
length， 将 第 8 位 置 为 1， 其 他 ?7 位 说 明 再 加 上 多 少 字 节 组 成 length。 图 7-9 说 明 一 个 单 
的 1 学 节 length 和 一 个 多 字 节 length, 











a j 
a) 1 字 节 
| TT | | 1 ， É 人 包含 长 度 | 
| INT | 4 | 4 字 节 整数 一 一 一 | | 一- j 
_ i | 四 ND i | b) 多 字 节 
图 7-8 4 字 节 整数 的 ASN. 1/BER 表示 图 7-9 长 度 的 ASN. 1/BER 表示 
3. NDR 


网 络 数 据 表 示 法 (Network Data Representations NDR) 是 用 于 分 布 式 计 算 环境 
(Distributed Computing Environment, DCE. 我 们 在 5.3 节 中 会 介绍 ) 的 数据 编码 标准 . 
与 XDR 和 ASN. 1 KEL NDR 使 用 接收 方 调整 方式 。NDR 表示 法 在 每 条 消息 前 插入 一 个 
体系 结构 标记 ， 而 对 单个 数据 项 是 不 带 标记 的 。NDR 使 用 编译 程序 生成 桩 ， 这 个 编译 程 
序 用 接口 定义 语言 (Interface Definition Language. IDL) 写 出 程序 描述 并 生成 必要 的 桩 . 
IDL 看 起 来 和 C 非常 相似 ， 所 以 ， 基 本 上 支持 C 类 型 系统 。 

图 7-10 说 明 包 含 在 每 个 NDR 编码 消息 中 前 面 4 字 节 的 体系 结构 定义 标记 : 第 一 个 字 
节 含 两 个 4 位 的 字段 。 第 一 个 字段 IntegrRep (整数 格式 ) 定义 消息 中 所 有 整数 的 格式 : 0 
表示 高 端 字 节 序 整数 ，1 表示 低 端 字 节 序 整 数 。CharRep (字符 格式 ) 字段 说 明 所 使 用 的 
字符 格式 : 0 表示 ASCI (美国 国家 信息 交换 标准 代码 )，1 表示 EBCDIC 〈 一 个 更 早 的 巾 
IBM 定义 的 不 同 于 ASCI 的 编码 ) 。 接 下 来 ，FloatRep ( 浮 点 数 格式 ) 字段 定义 使 用 哪 一 
种 浮 点 数 表示 法 : 0 表示 IEEE 754, 1 表示 VAX，2 表示 Cray. 3 表示 IBM。 最 后 两 个 字 
节 保 留 将 来 使 用 。 注 意 像 整 型 数组 这 样 的 简单 情况 ，NDR 做 的 很 多 工作 都 与 XDR 相同 ， 
所 以 它 也 能 达到 同样 的 性 能 。 


0 4 8 16 24 31 
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图 7-10 NDR 的 体系 结构 标记 


7.1.3 标记 语言 (XML) 


尽管 我 们 从 RPC 的 观点 讨论 了 表示 格式 化 的 问题 ， 也 就 是 说 ， 如 何 编码 基本 数据 类 
型 和 复合 数据 结构 使 它们 能 从 客户 程序 被 发 送 到 服务 器 程序 ， 但 同样 的 问题 在 其 他 环境 中 
也 存在 。 例 如 ，Web 服务 器 如 何 描述 一 个 Web 页 面 才 能 使 不 同 的 浏览 器 知道 在 屏幕 上 该 
显示 什么 ”在 这 种 特定 的 情况 下 ， 答 案 就 是 超 文 本 标记 语言 (HyperText Markup Lan- 
guage，HTML)， 它 指示 某 些 字符 串 应 该 用 粗 体 或 斜体 显示 ， 应 该 使 用 什么 类 型 的 字体 和 
字号 ， 以 及 图 像 应 该 放 在 什么 位 置 。 

由 于 Web 非常 流行 ， 并 且 Web 上 存在 各 种 各 样 的 应 用 和 数据 ， 这 就 导致 了 不 同 的 
Web 应 用 之 间 需 要 互相 通信 和 理解 对 方 数据 的 情况 。 例 如 ， 一 个 电子 商务 网 站 需要 和 一 个 
物流 公司 的 网 站 沟通 ， 以 便 允许 客户 不 用 离开 电子 商务 网 站 就 可 以 跟踪 一 个 包 庄 。 实 际 上 
这 看 起 来 很 像 RPC， 如 今 Web 采用 的 服务 器 之 间 的 通信 方法 是 基于 可 扩展 标记 语言 (Ex- 
tensible Markup Language. XML) 的 。 





is BY ah HE 313 





标记 语言 、 如 HTML 和 XML， 使 用 标签 数据 来 达到 目的 。 数据 被 表示 为 文本 ， 而 且 
被 称 为 标记 (markup) 的 文本 标签 与 数据 文本 交织 起 来 表示 数据 信息 。 事 实 上 HTML 只 
实现 了 如 何 将 文本 显示 出 来 .而 其 他 的 标记 语言 可 以 标记 数据 类 型 和 数据 结构 。 

XML 实际 上 是 一 个 框架 。 用 于 为 不 同 的 数据 定义 不 同 的 标记 语言 。 例 如 . XML 可 用 
来 定义 一 种 大 致 等 同 于 HTML 的 标记 语言 . 叫 作 可 扩展 超 文本 标记 语言 (Extensible Hy- 
per Text Markup Language. XHTML). XML 为 标记 和 数据 文本 相 混合 定义 了 基本 语法 
但 特殊 标记 语言 的 设计 者 必须 命名 并 定义 其 标记 。 一 种 普遍 的 做 法 是 将 基于 XML 的 语言 
简单 地 称 作 XML. 不 过 在 本 书 中 ,我 们 仍 要 强调 其 中 的 区 别 。 

XML 语法 看 起 来 很 像 HTML. 例如， 一段 用 假设 基于 XML 的 语言 记载 的 雇员 
记录 如 下 面 的 XML 文档 (document) fa. 而 且 可 以 存储 在 employee. xml 文件 中 - 
第 一 行 说 明 所 用 的 XML 版 本 . 其余 几 行 指定 构成 雇员 记录 的 上 个 字段 ， 其 中 最 后 一 
个 字段 (hiredate) 包含 三 个 子 字段 。 换 句 话说 . XML 允许 用 户 指定 成 对 的 标记 / 值 的 
REE. 这 种 结构 可 以 等 价 于 一 个 表示 数据 的 树 状 结构 GE employee 作为 根 节 
点 )。 这 类 似 于 XDR、ASN. 1 和 NDR 表示 复合 类 型 的 能 力 , 但是， 它 使 用 的 是 一 种 
既 能 由 程序 处 理 且 具有 可 读 性 的 格式 。 更 重要 的 是 . 一些 程序 (如 解析 器 ) ear 
跨越 不 同 的 基于 XML 语言 ， 因 为 这 些 不 同 语言 的 定义 都 可 以 表示 为 数据 并 提交 给 这 
些 程序 进行 分 析 。 


emp 


虽然 文档 中 的 数据 和 标记 都 pia 易 理 解 ， 但 还 是 要 巾 雇员 记录 语言 的 定义 来 决定 哪些 
标记 是 合法 的 、 这 些 标记 代表 什么 意思 、 实 现 什么 数据 类 型 等 没有 这 些 标 准 定义 的 标 


> 程序 员 〈 或 计算 机 ) 就 不 能 确定 ， year 字段 中 的 1986 是 字符 串 、 整 数 、 非 符号 整数 还 
记 浮 点 数 . 

特定 的 基于 XML 语言 的 定义 由 大 纲 (schema) 给 i, 而 模式 是 一 个 说 明 怎 样 解释 数 
据 集合 的 数据 库 术 语 。 现 在 有 很 多 定义 XML 的 大 纲 语言 。 我 们 现在 把 关注 点 放 在 具有 主 
TIAJ XML Schema 语言 上 ， 一 个 由 XML Schema 定义 的 大 纲 称 为 XML KAZA 
(XML Schema Definition，XSD)。 下 而 是 一 个 用 于 employee. xml 的 XSD 例子 ， 换 句 话 
说 ， 它 定义 了 示例 文档 应 符合 的 语言 。 这 些 代码 被 存放 在 一 个 名 为 employee. xsd 的 文 
件 中 


a 
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<?xml version="1.0"?> 
<schema xmilns="http://www.w3.org/2001/XMLSchema” > 
<element name="employee"> 
<complexType> 


<sequence> 


<element name="name" type="string"/> 
<element name="title" type="string"/> 
<element name="id" type="string"/> 


<element name="hiredate"> 
<complexType> 
<sequence> 
<element name="day." type="integer"/> 
<element name="month" type="string"/> 
<element name="year" type="“integer"/> 
</sequence> 
</complexType> 
</element> 
</sequence> 
</complexType> 
</element> 
</schema> 


这 个 XSD 看 起 来 有 点 像 我 们 的 例子 文档 employee. xml， 这 是 因为 XML 大 纲 本 身 就 是 基 
F XML 的 语言 。 所 以 这 个 XSD 和 上 面 定 义 的 employee. xml 文档 有 着 很 明显 的 联系 
例如 : 


<element name="title" type="string"/> 


引号 内 的 标记 title 被 解释 为 一 个 字符 串 。 通 过 XSD FLAY TF AK EO EY title yE 
为 一 个 雇员 记录 的 第 二 个 元 素 的 结论 。 

不 同 于 其 他 大 纲 语言 ， XML Schema 提供 了 多 种 数据 类 型 ， 如 字符 串 型 、 束 型、 小数 
型 和 布尔 型 。 就 像 在 employee. xsd 里 展示 的 一 样 ， 人 允许 各 种 数据 类 型 的 组 合 和 艇 套 以 创 
建 复 合 数据 类 型 。 所 以 ，XSD 定义 的 不 仅仅 是 语法 ， 还 定义 自己 的 抽象 数据 模型 。 一 个 符 
合 XSD 的 文档 表示 一 个 符合 特定 数据 模型 的 数据 集合 。 

XSD 的 意义 在 于 定义 了 一 个 抽象 数据 模型 ， 而 不 仅仅 是 语法 模型 ， 因 此 采用 XML 之 
外 的 表示 方式 的 数据 也 可 符合 该 模型 。 然 而 ，XMEL 作为 一 种 在 线 表 示 形 式 也 具有 一 些 缺 
点 : 相对 于 其 他 数据 表示 法 它 并 不 紧凑 ， 并 且 解 析 速 度 会 比较 慢 。 还 有 一 些 可 选择 的 采用 
二 进 制 表示 的 方法 。 当 W3C 做 出 了 高 效 XML 交换 (EXD 草案 的 时 候 ， 国 际 标准 化 组 织 
(SO) 已 经 发 表 了 一 个 名 为 “Fast Infoset” 的 草案 。 二 进 制 表示 法 牺牲 了 可 读 性 ， 但 方 
便 了 更 大 程度 的 压缩 和 快速 解析 。 

XML 命名 空间 

XML 必须 处 理 的 一 个 普遍 问题 就 是 名 字 冲 突 S 。 之 所 以 会 出 现 这 个 问题 是 因为 模式 
语言 (比如 XML Schema) 支持 模块 化 ， 采 用 模块 化 是 考虑 到 一 个 模式 可 以 由 另外 一 个 模 
式 重用 。 假 设 两 个 XSD 都 定义 了 一 个 标记 并 命名 为 “idNumber”"。 或 许 一 个 XSD 使 用 这 





加” 命名 对 于 计算 机 科学 家 来 说 是 一 个 重要 而 常见 的 问题 . 我 们 将 在 9.3.1 节 中 考察 DNS (因特网 主机 的 命名 机 
制 ) 时 更 详细 地 讨论 命名 空间 。 
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个 名 字 来 识别 公司 的 雇员 ， 而 另 一 个 XSD 使 用 这 个 名 字 来 识别 公司 所 拥有 的 笔记 本 电脑 。 
我 们 可 能 重用 这 两 个 XSD 到 第 三 个 XSD 中 用 来 描述 笔记 本 电脑 与 雇员 的 关联 。 但 如 果 想 
这 样 做 就 得 有 一 些 机 制 来 区 分 雇员 号 和 笔记 本 电脑 编号 。 

XML 用 来 解决 这 个 问题 的 方法 是 oil 命名 空间 是 名 
字 的 集合 。 每 个 XML 命名 空间 可 以 用 统一 资源 标识 符 (uniform resource identifier, 
URD 来 识别 。URI 的 具体 细节 会 在 9. 1.2 4 eet 现在 ， 我 们 需要 知道 的 是 这 是 一 种 
全 局 统一 aa 符 .9 简单 的 标记 名 字 (比如 idNumber) 只 要 在 命名 空间 中 是 唯一 的 就 可 
ee 。 因为 命名 空间 是 全 局 唯一 的 ， 而 且 简 单 的 名 字 在 命名 空间 中 也 是 唯一 
Ay. shapes ben e (qualified name) 不 会 发 生 冲 突 。 

XSD 通常 使 用 如 下 的 命令 行 定义 一 个 目标 命名 空间 (target namespace) : 


targetNamespace="http://www.example.com/employee" 





Hp, http://www. example. com/employee 是 一 个 URI， 标 识 一 个 假设 的 命名 空间 ( 简 
单 地 说 ， 我 们 的 XSD 例子 并 没有 说 明 一 个 目标 命名 空间 )。 所 有 XSD 中 定义 的 新 标记 都 
属于 这 个 命名 空间 。 

现在 ， 如 果 一 个 XSD 想 引 用 已 经 在 其 他 XSD 中 定义 的 名 字 ， 它 可 以 用 命名 空间 来 预 
定义 那些 名 字 。 从 XSD 转 回 文档 ， 一 个 文档 需要 在 使 用 命名 空间 时 分 派 一 个 短命 名 空间 
前 级 。 例 如 下 面 一 行 关联 emp 为 employee 的 命名 空间 前 级: 


xmlns:emp="http://www.example.com/employee" 


任何 命名 空间 标记 都 可 以 通过 emp 前 级 来 进行 确认 ， 比 如 下 面 这 行 中 的 title: 


<emp:title>Head Bottle Washer</emp:title> 


emp: title 是 个 受 限 的 名 字 ， 它 不 会 和 其 他 命名 空间 的 名 字 产 生 冲 突 。 

值得 一 提 的 是 ，XML 当前 应 用 非常 广泛 ， 从 Web 服务 中 的 RPC 样式 通信 到 办 公 工 
有 具 再 到 即时 消息 。 我 们 在 第 9 竟 中 会 看 到 它 的 更 多 应 用 。 它 现在 无 疑 是 因特网 上 层 所 依靠 
的 核心 协议 之 一 。 


7.2 多 媒体 数据 


根据 多 方 估计 ， 包括 音频 、 视 频 和 静态 图 像 的 多 媒体 数据 已 经 占据 了 因特网 的 大 部 分 
ag 这 是 一 个 相对 近期 的 发 展 一 一 现在 也 许 很 难 相 信 ， 在 2005 年 以 前 是 没有 YouTube 

。 使 多 媒体 数据 在 互联 网 上 广泛 传播 的 部 分 原因 可 能 是 压缩 技术 的 进步 。 因 为 多 媒体 数 
tr 讶 来 接收 的 ， 然 后 经 过 人 类 大 脑 的 处 理 ， 所 以 压缩 这 些 数 
据 要 面临 很 多 独特 的 挑战 。 wise ia oa 
感官 体验 的 信息 。 因 此 ， 计 算 机 科学 和 人 类 感知 的 学 习 都 会 发 挥 作 用 。 在 本 节 中 ， 我 们 来 
看 在 表述 和 压缩 多 媒体 数据 方面 人 们 所 做 出 的 主要 努力 。 

压缩 技术 的 使 用 当然 不 仅仅 局 限于 多 媒体 技术 上 一 一 例如 ， 在 互联 网 上 发 送 文件 或 者 
下 载 后 解压 缩 文件 时 ， 你 很 可 能 会 用 到 一 个 实用 的 压缩 工具 ， 像 zip 或 者 compress, BK 
证 明 用 于 压缩 数据 的 技术 部 是 无 损 的 (lossless)， 因 为 大 多 数 人 不 喜欢 文件 里 的 数据 丢 
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失 ， 这些 技术 也 可 以 作为 多 媒体 数据 压缩 方案 的 一 部 分 。 与 此 相反 ， 有 损 压 缩 (lossy 
compression) 技术 通常 应 用 在 多 媒体 数据 上 且 并 不 能 保证 接收 的 数据 与 发 送 的 数据 一 模 
一 样 。 如 上 面 所 提 到 的 ， 这 是 因为 多 媒体 数据 中 通常 只 包含 一 小 部 分 对 接收 方 有 用 的 数 
据 。 我 们 的 感官 和 大 脑 只 能 察觉 到 这 么 多 细节 ， 我 们 很 擅长 在 看 或 者 听 的 时 候 自 动 填补 漏 
掉 的 内 容 ， 其 至 能 自动 纠正 其 中 的 错误 。 有 损 算法 通常 会 得 到 比 其 他 算法 更 好 的 压缩 比 . 
其 数值 比 无 损 压 缩 好 一 个 数量 级 或 更 多 

为 了 了 解压 缩 技术 对 于 网 络 多 媒体 的 传播 有 多 么 重要 ， 考 虑 下 面 的 例子 。 一 个 1 080 
像素 X1 920 像素 的 高 清 电视 屏幕 ， 每 个 像素 有 24 位 的 颜色 信息 。 所 以 每 帧 是 

1 080 X 1 920 久 24 王 50Mb 

所 以 如 果 你 想 每 秒 发 送 24 帧 ， EEA Tp 这 比 大 多 数 因 特 aca 上 网 的 速度 还 
要 快 很 多 。 相 比 之 下 ,现代 压缩 技术 可 以 将 速度 降 到 10Mbps 左右 ， 得 到 足够 清 m 
HDTV (5. W > PS A hit BIE W EIR & EP FP BOR te /用 于 
像 YouTube 视频 剪辑 这 样 的 低 质量 视频 ， 如 果 没 有 压缩 技术 使 所 有 有 趣 的 视频 适应 今天 
的 网 络 带 宽 ， 它 就 不 会 拥有 现在 这 样 的 人 气 。 

近年 来 ， 压 缩 技术 应 用 到 多 媒体 上 已 经 形成 了 一 个 大 的 创新 领域 ， 尤其 是 有 损 压 缩 
然而 无 损 压 缩 技术 也 发 挥 了 很 重要 的 作用 。 事 实 上 . 大 多 数 有 损 压 缩 技术 包含 的 一 些 步 驿 
是 无 损 的 ， 所 以 我 们 从 对 无 损 压 缩 的 概述 开始 讨论 


7.2.1 无 损 压 缩 技术 


在 许多 方面 ， 压 缩 都 是 不 能 与 数据 编码 分 开 的 。 就 是 说 ， 在 考虑 如 何 用 一 组 比特 去 编 

一 块 数据 时 ,我 们 同时 要 考虑 如 何 实现 用 最 少 的 比特 EE, 例如 ， 如 果 有 一 个 由 A 
eee 假设 所 有 符号 在 你 要 编码 的 数据 块 中 出 现 的 机 会 相等 . 
那么 ， 最 好 用 5 个 比特 编码 每 个 符号 CIA 2° = 32 是 KF 26 的 2 PN Reb HE). PA TTT. 
如 果 符 号 R 出 现 的 次 数 为 50%， 那么 使 用 比 编码 其 他 符号 更 少 的 比特 去 编码 符号 R 就 是 
一 个 很 好 的 主意 。 通 常 ， 如果 你 知道 每 个 符号 出 现在 数据 中 的 相对 概率 . 那么 ， 你 就 可 以 
用 某 种 方法 为 每 个 可 能 的 符号 指定 不 同 数量 的 比特 ， 即 用 最 少 的 比特 数 去 编码 给 定 的 数据 
块 。 这 就 是 赫 夫 曼 编 码 (Huffman code) 的 基本 思想 ， 也 是 早期 在 数据 压缩 方面 最 重要 的 
发 展 之 一 。 


相关 主题 

什么 时 候 进行 压缩 ? 

因为 网 络 传阅 压缩 数据 比 传递 未 压缩 数据 用 的 时 间 少 ， 所 以 似乎 在 发 送 前 压缩 数据 总 
是 个 好 主意 。 然 而 ， 并 不 一 定 如 此 ,压缩 /解压 缩 算 法 常常 是 需要 耗 时 的 计算 。 你 必须 考 
虑 给 定 主机 处 理 器 的 速度 和 网 络 带 宽 等 因素 ， 花 时 间 压 缩 /解压 dh 据 有 是 不 是 值得 。 特 别 
是 ， 如 果 Be 是 数据 通过 (顺序 地 ) 压缩 程序 /解压 缩 程 序 的 平均 带宽 ，B。 是 未 压缩 数据 
的 网 络 带宽 (包括 网 络 处 理 耗 费 的 带宽 ),， rr 是 平均 压缩 率 ， 而 且 ， 如 果 我 们 假设 在 任何 伯 
输 前 ， 所 有 数据 都 是 压缩 的 ， 那 么 发 送 x 个 字 节 未 压缩 数据 所 用 时 间 是 

xr/By 





而 压缩 和 发 送 压 缩 数 据 的 时 间 是 
xl Bet xl krBr 
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KH. WR 
z/{B.-2/CrB,)<2/ Ba 
压缩 是 有 益 的 ， 它 等 价 于 
Bs7r/(r—-1) X Bs 
例如 ， 压 缩 率 为 2，B. 必 须 大 于 2XB。 压缩 才 有 意义 。 

对 于 许多 压缩 算法 ,开始 传输 前 不 要 求 压缩 整个 数据 集合 (如 果 要 求 这 样 做 的 话 ， 视 
频 会 议 就 是 不 可 能 的 )， 但 首先 必须 收集 一 定量 的 数据 (也许 是 几 个 视频 帧 )。 在 这 种 情形 
T. “填充 管 道 ” 所 需 的 数据 总 量 就 是 上 述 方 程 中 文 的 值 。 

当然 ， 讨 论 有 损 压缩 算法 时 ， 处 理 资源 并 非 唯一 的 因素 。 对 于 不 同 的 应 用 程序 用户 
非常 愿意 在 带宽 (或 延迟 ) 和 压缩 导致 的 信息 丢失 程度 之 间 进 行 不 同 的 权衡 。 例 如 ， 放 射 
线 学 者 看 乳房 又 光 片 时 不 可 能 容忍 图 像 质量 有 任何 重要 的 损失 ， 但 他 却 可 能 会 容 丸 在 网 上 
等 几 小 时 检索 图 像 。 相 反 ， 多数 人 显然 都 能 容忍 电话 交换 机 中 不 可 靠 的 音频 质量 以 便 能 在 
全 球 范围 内 自由 地 拨打 电话 ( 边 开 车 边 打 电 话 的 质量 就 更 不 用 说 了 )。 








1. 行程 编码 
行程 编码 (Run Length Encoding. RLE) 是 一 种 极其 简单 的 压缩 技术 。 其 思想 是 对 
连续 出 现 的 一 个 符号 ， 只 用 此 符号 的 一 个 副本 加 上 符号 出 现 的 次 数 来 代替 ， 所 以 起 名 为 行 
程 。 例 如 ，AAABBCDDDD 串 就 被 编码 为 3A2B1C4D。 
Bese RLE 对 于 压缩 一 些 类 型 的 图 像 很 有 用 。 和 
只 编码 有 变化 的 符号 来 压缩 数字 图 像 。 对 于 有 很 大 相似 区 域 的 图 像 来 说 ， 这 个 技术 是 
sean 例如 ， 对 扫描 的 文本 图 像 ， 它 的 效果 很 显著 ,能 达到 压缩 率 为 8 : 1 的 量 级 。 
RLE 对 这 样 的 文件 处 理 很 有 效 是 因为 这 种 文件 常常 包含 大 量 可 以 被 删除 的 空白 。 实 际 上 ， 
RLE 过 去 是 用 来 发 送 传真 的 关键 压缩 算法 。 然 而 ， 对 局 部 变化 程度 很 小 的 图 像 ， 其 压缩 
实际 上 会 明显 增加 图 像 的 字 节 数 ， 因 为 ， 当 一 个 符号 不 重复 出 现时 ， 要 用 两 个 字 节 来 表示 
单个 符号 。 
2. re 
一 个 简单 的 无 损 压 缩 算 法 是 盖 分 脉 人 色调 制 (Differential Pulse Code Modulation, 
DPCM) 。 它 的 思想 是 首先 输出 一 个 参考 符号 ， 然 后 输出 数据 中 的 每 个 符号 与 参考 符号 的 
差 。 例 如 ， 使 用 符号 A ph 号 ， 字 符 串 AAABBCDDDD 将 编码 为 A0001123333， 
因为 A 和 参考 符号 相同 ，B 与 参考 符号 的 差 为 1， 依 次 类 推 。 注 意 这 个 简单 的 例子 并 不 能 
说 明 DPCM 的 真正 好 处 ， 即 当 差 较 小 时 ， 它 们 能 用 比 符号 本 身 更 少 的 比特 去 编码 。 在 这 
个 例子 中 ， 差 的 范围 为 0 一 3， 每 个 符号 用 两 个 比特 表示 ， 而 完全 表示 这 些 字符 则 需要 用 7 
或 8 个 比特 。 一 旦 差 变 的 很 大 ， 就 选择 一 个 新 的 参考 符号 。 
对 大 多 数 数 字 图 像 来 说 ，DPCM IE RLE 效果 更 好 ， 因 为 它 利 用 相 邻 像素 值 通常 是 相 
似 的 这 个 事实 。 由 于 这 种 关系 ， 相 邻 像素 值 之 间 差 分 的 动态 范围 可 能 远 比 原始 图 像 的 动态 
范围 小 ， 而 且 这 个 范围 因此 能 用 更 少 的 比特 来 表示 。 使 用 DPCM, 我 们 已 经 测量 到 对 数字 
图 像 压缩 率 为 1.5 : 1, DPCM 也 适用 于 音频 ， 因 为 相 邻 的 音频 波形 在 值 上 可 能 是 相近 的 。 
另 一 种 略 有 差别 的 方法 称 为 delta 编码 (delta encoding)， 简 单 地 把 一 个 符号 编码 为 与 
前 一 符号 的 差 。 比 如 ，AAABBCDDDD 可 以 表示 为 A001011000。 注 意 ，delta 编码 很 适合 
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编码 相 邻 像素 相似 的 图 像 。delta 编码 后 还 可 以 再 进行 RELE (行程 编码 ) ， 上 因为 如 果 每 个 多 
号 后 都 有 许多 类 似 的 符号 ， 我 们 就 会 找到 一 长 串 0， 

3. 基于 字典 的 方法 

我 们 讨论 的 最 后 一 个 无 损 压 缩 法 是 基于 字典 的 方法 ， 其 中 最 著名 的 是 Lempel-Zi\ 
(LZ) 压缩 算法 。Unix 的 compress 和 gzip 命令 使 用 LZ 算法 的 一 个 变种 

基于 字典 的 压缩 算法 .其 思想 是 为 你 希望 在 数据 中 查找 的 可 变 长 字符 串 GEE N 
常用 短语 ) 建 一 个 字典 〈 表 )， 当 这 些 串 出 现在 数据 中 时 . 用 相应 的 字 髓 索引 替代 每 个 串 
例如 ， 在 文本 数据 中 不 是 处 理 单独 的 字符 .你 可 以 把 每 个 词 作为 一 个 串 来 对 待 并 为 每 个 i 
输出 其 在 该 字典 的 索引 。 下 面 举 个 例子 详细 说 明 、 “compression” 一 词 在 特定 的 闻 骨 中 的 
索引 为 4978， 因 为 在 /usr/share/dict/words 文件 中 它 是 第 4978 个 词 。 要 不 缩 一 个 文本 的 
正文 ， 每 次 当 这 个 串 出 现时 ， 就 会 用 4978 来 代替 。 由 于 在 这 个 特定 的 字 明 中 只 有 25 00 
多 个 词 ， 需 用 15 个 比特 来 编码 这 个 索引 ， 意 味 着 串 “compression” 可 以 用 15 个 比特 而 不 
是 7 比特 ASCII 所 要 求 的 77 比特 来 表示 。 这 样 压 缩 率 为 5 : 1! 在 另 一 个 数据 点 上 ， 当 我 
们 把 压缩 命令 应 用 到 本 书 所 描述 的 那些 协议 的 源 代 码 时 ， 我 们 可 能 会 得 到 2 : 1 的 压缩 率 

当然 ， 剩 下 的 问题 是 字 骨 从 哪里 来 ， 一 个 选择 是 定义 静态 字 嵌 .最 好 是 为 要 压缩 的 数 
据 定制 字典 。LZ 压缩 法 使 用 的 更 一 般 的 解决 方案 ， 即 定义 基于 压缩 数据 内 容 的 自 适应 字 
典 。 然 而 ， 在 这 种 情况 下 ,构造 的 字典 在 压缩 期 间 必 须 和 数据 一 起 发 送 ， 以 便 算 法 的 解压 
di 它 的 工作 。 如 何 正确 地 建立 目 适 应 字 骨 已 经 成 为 一 个 广泛 的 研究 课题 . 在 这 

结尾 我 们 讨论 关于 这 个 主题 的 重要 文章 。 


7.2.2 图 像 表 示 和 压缩 (GIF, JPEG) 


在 过 去 的 几 年 中 数字 图 像 的 使 用 增加 了 ， 这 种 增加 是 由 于 图 形 显 示 器 的 发 明 而 非 高 速 
one WY FF EUR KE BY ERMER His IIS i Ye a I Oe EGO Ta 

个 需求 ，ISO 定义 了 一 个 称 为 JPEG 的 数字 图 像 格式 ， 其 名 称 来 自 设 计 它 的 联合 图 像 专 
alà (Joint Photographic Experts Group, JPEG), JPEG 中 的 “Joint” 代 表 它 是 ISO 
ITU 联合 的 成 果 。 如 今 JPEG 格式 是 静态 网 片 中 应 用 最 广泛 的 格式 .这 种 格式 定义 的 核心 
是 一 个 压缩 算法 ， 我 们 下 面 会 描述 它 。 很 多 在 JPEG 中 应 用 的 技术 也 在 MPEG 中 应 用 、 
即 由 运动 图 像 专家 组 (MPEG) 创建 的 一 组 视频 压缩 和 传送 标准 。 

在 深入 人 研究 JPEG 格式 的 细节 之 前 ， 我 们 注意 到 ， 从 数字 图 像 到 可 以 被 接收 者 接受 的 
可 传送 、 可 解压 缩 、 可 正确 显示 的 压缩 图 像 之 间 有 很 多 的 步 又 ， 你 可 能 知道 数字 图 
像素 组 成 的 〈 因 此 ， 在 数码 相机 的 广告 中 引入 兆 像 素 )， 每 个 像素 代表 二 维 网 格 中 的 = 
位 置 ， 以 此 来 组 成 图 像 。 对 于 彩色 图 人像， 每 个 像素 有 一 些 代 表 一 个 说 色 的 数值 。 有 pi í 
式 来 表示 颜色 ， 称 为 颜色 空间 (color space), K L BA KEAR W — 4 i (4 4 fa] SE RGB 
( 红 ， 绿 ， 蓝 )。 你 可 以 将 颜色 看 成 一 个 三 维基 ， 通 过 红 、 绿 、 蓝 的 不 同 数值 而 合成 MER 
颜色 。 在 一 个 三 维 空 间 中 ， 有 很 多 不 同 的 有 效 的 方式 来 表述 一 个 给 定 的 点 (例如 第 卡尔 华 
标 和 极 坐标 ) 。 同 样 ， 很 多 方法 用 三 个 数量 来 描述 一 个 颜色 ,最 常理 代 RGB 的 是 YUV 
Y 是 亮度 ， 即 像素 的 整体 亮度 ，U 和 V 包含 色 度 或 者 颜色 信息 。 容易 混 清 的 是 ， 也 有 很 
Z YUV 颜色 空间 的 不 同 变 体 。 下 面 会 更 详细 地 讲述 这 个 方面 。 

这 个 讨论 的 意义 是 彩色 图 像 (静态 或 者 动态 ) 的 编码 和 传送 需要 颜色 空间 两 端 之 间 达 





成 协议 。 和 否则 ， 你 最 后 肯定 会 得 到 与 发 送 方 不 同 的 颜色 。 因此， 在 颜色 空间 定义 上 达成 一 
致 (也 许 只 是 使 用 的 特定 命名 空间 的 一 种 沟通 的 方式 ) 是 任何 图 像 格 式 或 者 视频 格式 定义 
HY — ib oP a 
让 我 们 看 看 GIF (Graphical Interchange Format) 格式 的 例子 。GIF 使 用 RGB 颜色 空 
la]. 用 8 位 代表 颜色 三 维 变量 中 的 一 个 变量 ， 一 共 需 要 24 位 。GIF 首先 将 24 位 彩色 图 片 
降 到 8 位 彩色 图 片 。 而 不 是 每 个 像素 24 位 。 这 是 通过 识别 一 幅 图 片 中 已 用 到 的 颜色 来 实 
现 的 ,颜色 总 量 通常 都 会 大 大 小 于 221 这 个 值 ， 然 后 再 从 256 种 颜色 中 挑选 最 接近 图 片 中 
用 到 的 颜色 。 也许 会 多 于 256 种 颜色 然而， 诀窍 就 是 在 256 种 颜色 中 挑选 的 时 候 不 要 让 
颜色 失真 过 多 ， 这 样 颜色 中 的 像素 就 不 会 改变 太 大 。 
256 种 颜色 存储 在 一 个 表 里 ， 这 个 表 可 以 用 一 个 8 位 的 数 索 引 ， 这 样 每 个 像素 的 值 都 
对 应 一 个 适当 的 索引 。 注 意 这 是 一 个 针对 任何 多 于 256 种 颜色 的 图 片 的 有 损 压 缩 的 例子 。 
然后 .GIF 在 结果 上 运行 一 个 LZ 变量 . 将 常见 的 像素 作为 组 成 字典 的 字符 串 进 行 处 理 ， 
这 是 个 无 损 et o TESNE, GIF 有 时 可 以 达到 10 : 1 的 压缩 比 . 不 过 只 在 图 像 包 
含 相 对 比较 少 的 离散 颜色 的 情况 下 。 例 如 一 个 图 标 ，GIF 就 可 以 处 理 得 很 好 。 而 自然 场景 
ee : 续 光 谱 上 的 颜色 .用 GIF 就 不 能 压缩 到 这 个 压缩 比 了 。 在 某 些 情况 下 ， 
对 于 GIF 引起 的 闸 色 损失 从 而 导致 的 所 曲 ， 人 上 腿 也 不 太 能 察觉 出 来 。 
JPEG 格式 更 适合 摄影 网 像 、 央 此 我 们 以 创建 它 的 组 织 为 之 命名 。JPEG 不 会 像 GIF 
- 样 减少 颜色 的 量 。 相反 . JPEG 首先 将 RGB 颜色 (就 是 通常 从 数码 相机 中 得 到 的 颜色 ) 
转换 到 YUV 颜色 空间 .原因 与 眼睛 感知 图 像 的 方式 有 关 。 上 腿 晴 里 有 亮度 的 接收 右 ， 并 且 
对 每 种 颜色 有 单独 的 搂 收回。 因为 我 们 非常 善于 感受 亮度 的 变化 ， 所 以 使 用 更 多 数据 位 传 
得 亮度 信息 是 很 有 意义 的 。 既然 YUYV 中 的 YY 表示 像素 中 的 整体 亮度 信息 ， 因 此 我 们 就 可 
以 单 MERRI. 而 不 必 过 分 关注 其 他 两 个 〈 色 度 ) 值 。 
如 上 所 述 . YUV 和 RGB 是 用 于 描述 三 维 空 间 中 一 个 点 的 两 种 可 互 换 的 方式 .而 且 使 
用 一 个 线性 方程 从 一 个 颜色 室 间 转换 到 另 一 个 颜色 空间 也 是 可 能 的 。YUYV 颜色 空间 通常 
用 来 表示 数字 网 像 ， 方 程 是 : 
Y=0. 299R 十 0. 587G 十 0. 114B 
U=(B—Y) X0. 565 
V=(R-—Y) X0.713 
AX E aay ae AYE AL AS BE, BE Sh aie AN AE EE: OW GRAS PIR. fik 
TE Air Wo 20 BE o JH iki F 换 来 恢复 RGB oe ate Fe Ue ge Ae AR AS J A g BT CF AT PI E 
出 来 的 。 你 可 以 看 到 Y《〈 亮 度 ) 是 红 、 绿 、 蓝 各 部 分 的 总 和 ， 而 U 和 V 分 量 表示 颜色 的 
差异 。 U 表示 平均 亮度 和 人 aR ive wT. V TERTA TEE EL. (8 EI QE o RY AB EE 
意 到 , AR. G, B ips 成 它们 的 最 大 值 (8 位 表示 255), 会 使 得 Y 的 值 等 于 255， 而 此 
ih} U FV P 是 0。 也 就 是 在 RGB 颜色 空间 中 全 白 像素 是 (255, 255, 255), E YUV ği 
色 空 间 中 是 (255. 0, 0). 
-日 图 像 转 Wes YUV 颜色 空间 ， 我 们 就 可 以 将 颜色 的 三 个 部 分 单独 压缩 。 我 们 想 将 
U AL V 部 分 压缩 得 更 小 ， 因 为 人 腿 对 它们 比较 不 敏感 。 压 缩 U 和 V 的 一 个 方法 就 是 对 它 
们 进行 下 杀 样 〈subsample)。 下 采样 的 基本 思想 就 是 取出 一 组 相 邻 的 像素 值 ， 计算 这 组 像 
wins U 或 Y 平 均值 ， 然 后 用 这 个 值 代 蔡 这 组 里 的 所 有 像素 值 进行 传输 。 图 7-11 说 明了 这 
“Kho WE CY) 没有 下 采样 ， 所 以 所 有 像素 的 Y 值 都 会 被 传输 ， 显 示 在 16 X 16 像素 网 
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格 的 左面 。 而 在 U 和 YV 的 情况 下 ， 我 们 将 四 个 相 邻 的 像素 设 成 一 组 ， 计 算 这 一 组 的 平均 
值 ， 然 后 进行 传输 。 因 此 ,我 们 最 终 是 传输 一 个 8X8 的 U 和 V 的 像素 网 格 。 因 此 .在 这 
个 例子 中 ， 对 于 每 四 个 像素 ， 我 们 传输 6 个 值 4 个 Y 值 , 1 个 U 值 . 1 个 V 值 ) 而 不 是 
最 开始 的 12 “MAL (每 个 部 分 各 4 个 值 ) 这样 可 以 减少 50% 的 信息 . 
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图 7-11 对 图 像 中 的 U 值 和 V 值 进行 下 采样 


值得 注意 的 是 ， 下 采样 的 程度 可 以 适当 加 深 ， 相 应 地 会 增加 压缩 比 和 降低 图 像 质量 。 在 
这 里 所 示 的 下 采样 方法 中 ， 色 度 是 在 水 平和 垂直 两 个 方向 进行 两 倍 采样 ( 记 为 4 :2:0)， 
正好 可 以 匹配 常用 于 JPEG 和 MPEG 的 方法 。 

一 旦 下 采样 完成 ,我 们 就 有 三 个 网 格 的 像素 要 处 理 . 每 一 个 都 可 以 单独 处 理 。 如 
图 7-12 Pras, JPEG 压缩 分 三 个 阶段 完成 。 在 压缩 端 ， 以 每 次 一 个 8X8 数据 块 让 图 像 经 
过 这 三 个 阶段 。 第 一 阶段 对 这 个 数据 块 进 行 离 散 余 区 变换 (Discrete Cosine Transform. 
DCT)。 如 果 你 把 图 像 看 作 空间 域 中 的 一 个 信号 ,那么 DCT 把 这 个 信号 变换 成 空间 频率 
(spatial frequency) 域 中 一 个 等 价 的 信号 。 这 是 一 个 无 损 运 算 ， 但 必须 在 进行 下 一 步 有 损 
变换 前 完成 。 在 DCT 之 后 ， 第 二 阶段 将 产生 的 信号 进行 量化 并且. 在 量化 过 程 中 丢失 
信号 所 包含 的 最 低 有 效 信 息 。 第 三 阶段 编码 出 最 终 的 结果 ， 但 在 编码 过 程 中 ， 为 前 两 个 阶 
段 完 成 的 有 损 压 缩 增添 一 个 无 损 压 缩 的 成 分 。 解 压 同 样 包 含 这 三 个 阶段 .但 顺序 相反 。 
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图 7-12 JPEG 压缩 框图 





1. DCT 阶段 

DCT 是 一 种 与 快速 全 里 叶 变 换 (Fast Fourier Transform, FFT) 紧密 相关 的 转换 。 
EM 8X8 像素 值 和 矩阵 为 输入 ， 并 输出 一 个 8X8 频率 系数 矩阵 。 你 可 以 把 输入 和 矩阵 看 作 定 
义 在 二 维 空间 (zx 和 >y) 的 一 个 64 点 信号 ，DCT 把 这 个 信号 分 割 成 64 个 空间 频率 。 为 了 
获得 空间 频率 的 直观 感觉 ， 想 象 你 自己 沿 x 方向 可 着 移 过 一 张 图 片 的 过 程 。 你 会 看 见 每 个 
像素 值 按 z 的 某 个 函数 变化 。 如 果 随 着 x 的 增加 这 个 值 慢 慢 变化 ， 它 就 有 较 低 的 空间 频 
率 , 然 而， 如 果 它 的 值 迅速 地 变化 ， 它 就 有 和 较 高 的 空间 频率 。 所 以 低频 对 应 图 片 总 体 特 
性 ， 而 高 频 对 应 图 片 更 细微 的 变化 。DCT 思想 就 是 要 分 离 那 些 观看 图 像 所 必需 的 总 体 特 
性 与 不 太 必 要 的 且 有 些 情况 下 人 了 眼 几乎 感觉 不 到 的 细微 特性 。 
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解压 缩 期 间 完 成 DCT 的 逆 过 程 ， DCT 由 以 下 公式 来 定义 : 








DCT(i,j) = a (DC DD Yvi xel(r.y) eve| 二 | 
l E = N: eee (2x + Dix (2y 十 177x 
pixel(z.35) = a 2, )CGDCU)DCTG | 
| ped 
Cir) = 4/2 
i 正之 0 


其 中 Pixel(z,y) 是 被 压缩 的 8X8 块 中 位 置 为 (x，y) 的 像素 的 灰 度 值 、 此 时 N=8. 

第 一 个 频率 系数 在 输出 矩阵 的 0. 0) 位 置 ， 称 为 DC 系数 (DC coefficient)。 我 们 
可 以 很 直观 地 看 出 ，DC 系数 是 64 个 输入 像素 的 平均 值 。 输 出 矩阵 的 其 他 63 个 元 素 称 为 
AC 系数 (AC coefficient)。 它 们 为 这 个 平均 值 加 上 和 较 高 的 空间 频率 信息 。 这 样 ， 当 从 第 
一 个 频率 系数 向 前 走 到 第 64 个 频率 系数 时 ,你 就 从 低频 信息 , 移 到 高 频 信息 ， 图 像 从 粗 陋 
变 得 越 来 越 细 肤 。 这 些 高 频 系数 对 感觉 到 的 图 像 质 量 越 来 越 不 重要 ， JPEG 的 第 二 个 阶段 
是 判断 去 掉 哪 一 部 分 系数 . 

2. 量化 阶段 

在 JPEG 的 第 二 个 阶段 ， 压 缩 是 有 损 的 。DCT 本 身 不 丢失 信息 ， 它 只 是 把 图 像 变 换 成 
更 容易 知道 什么 信息 可 以 删除 的 形式 。( 尽 管 本 身 是 无 损 的 ,但 由 于 使 用 定点 运算 当然 会 
有 一 些 精度 的 损失 .) 量化 是 容易 理解 的 : 它 只 是 丢弃 频率 系数 中 可 忽略 的 那些 比特 。 

为 了 清楚 量化 阶段 是 怎样 完成 的 ,可 以 想象 你 要 压缩 小 于 100 的 某 些 数字 ， 例 如 ， 
45、98、23、66 和 7。 如 果 你 判定 将 这 些 数 截断 成 最 接近 的 10 的 倍数 就 足以 达到 目的 ， 
ee Ht 4. 9, 2, 6 和 0。 每 一 个 这 样 的 数 可 
以 用 4 个 比特 编码 而 不 像 诛 始 数据 需要 7 个 比特 编码 。 

就 像 下 面 公式 中 给 出 的 那样 ， JPEG HE PARE EFT RHC WA 

是 对 所 有 64 个 系数 使 用 同样 的 和 量程。 你 可 以 把 这 个 表 (Quantum) 看 成 一 个 参数 ， 对 它 
it 行 设置 可 以 控制 丢失 的 信息 量 ， 相 应 地 控制 





压缩 比 。 实 际 上 ，JPEG 标准 声明 了 在 压缩 数字 ET) EGR RRA 
图 像 中 已 证 明 是 有 效 的 一 个 量化 表 集 合 ， 表 7-1 fea reaenar se 
是 一 个 量化 表 的 例子 。 在 这 样 的 表 中 ， 较 低 的 Pe raat, Gach ticks 
系数 有 接近 1 的 量程 〈 意 味 着 几乎 没有 低频 信 n nas as a7 a as 
息 斑 失 )， 而 高 系数 有 较 大 的 值 (意味 着 更 多 高 11 13 15 17 19 21 23 25 
频 信息 丢失 )。 值 得 注意 的 是 ， 由 于 这 样 的 景 化 ee 
表 ， 许 多 高 频 系数 量化 后 最 终 被 党 为 0， 这 为 它 17 19 21 23 25 27 29 31 
们 进入 第 三 阶段 进一步 压缩 做 好 准备 。 
基本 量化 方程 为 


QuantizedValue(i, j) =IntegerRound(DCT CG, j)/Quantum(i,j)) 
其 中 
[x 二 0.5] 20 


IntegerRound( .x)= oe 
La—-0.5] «<0 
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解压 缩 则 简单 地 定义 为 
DCT(7.7) = QuantizedValue(7.7) X Quantum(7.)) 
例如 ， 假 设 某 个 特定 块 的 DC 系数 ( 即 DCT (0, 0)) 4 F 25. 那么 ,用 表 7-1 量化 
这 个 值 的 结果 为 


解压 缩 过 程 中 ， 这 个 系数 被 恢复 为 
8X3=24 
3. 编码 阶段 
在 JPEG 最 后 的 阶段 ， 用 一 种 压缩 格式 编码 量化 的 频率 系数 。 这 就 导致 了 男 一 次 不 
缩 ， 但 这 次 压缩 是 无 损 的 。DC 系数 从 (0, 0) 位 置 开 始 ， 如 图 7-13 所 示 ， 各 个 系数 按 Z 



































字形 进行 处 理 。 沿 着 这 个 Z 字形 使 用 行程 编码 格式 ，RLE 只 应 ———————— 
用 于 0 系数, 它 的 效果 显著 ， 因 为 后 面 的 许多 系数 都 是 0。 A + +++ 
个 系数 值 则 用 赫 夫 曼 码 来 编码 。(JPEG 标准 允许 使 用 算术 编码 “一 一 一 一 一 一 一 一 
REA ET) Pai ie 
另外 ， 因 为 DC 系数 包含 来 自 源 图 像 8X8 块 的 很 大 比例 的 TTT 1 | | 
cA gil de Pong ceil aS Ati JRA Lee | 
数 编码 成 与 前 一 个 DC 系数 的 差 。 这 是 7. 2. 1 节 介绍 的 delta 编 | Kt 
JPEG @ Git 2 EM. WK PE HE aK A AE, Pe an. 图 7-13 量化 频率 系数 
通过 使 用 不 同 的 量化 表 可 以 完成 这 些 工 作 。 这 些 变数 ， 再 加 上 ESAT 


不 同 图 像 有 不 同 特性 的 肉 素 ， 因 此 JPEG 不 可 能 达到 任何 精度 的 压缩 率 。30 : 1 的 压缩 比 
是 比较 常见 的 , 更 高 的 压缩 比 当 然 也 有 可 能 ， 但 是 在 更 高 的 压缩 比 中 构件 的 失真 Carti- 
fact) 〈 由 于 压缩 而 明显 失真 ) 会 更 严重 。 


7.2.3 视频 压缩 (MPEG) 

现在 我 们 把 注意 力 转 到 MPEG 格式 上 ， 其 名 称 来 自 定义 它 的 运动 图 像 专 家 组 (Mov- 
ing Picture Experts Group，MPEG)。 粗 略 地 说 ， 运 动 图 像 〈 即 视频 ) 是 简单 地 以 某 个 速 
率 连 续 显 示 的 静止 图 像 〈 也 称 为 帧 (frame) 或 图 片 (picture))。 每 个 帧 可 以 使 用 与 JPEG 
中 用 到 的 基于 DCT 的 相同 技术 来 压缩 。 当 然 这 个 问题 不 能 到 此 为 止 ， 因 为 它 不 能 删除 视 
频 序列 中 帧 到 帧 的 元 余 。 例 如 ， 在 一 个 场景 中 ,如 果 没 有 许多 动作 ， 两 个 连续 的 视频 帧 会 
包含 几乎 相同 的 信息 ， 所 以 没 必要 发 送 两 次 相同 的 信息 。 即 使 有 动作 的 时 候 ， 由 于 运动 对 
象 从 一 帧 到 下 一 帧 可 能 没有 变化 ， 也 会 有 大 量 的 元 余 信 息 : 有 些 时 候 ， 只 是 位 置 发 生 了 变 
化 。MPEG 考虑 到 了 帧 之 间 的 这 种 元 余 。 同时，MPEG 还 为 伴随 视频 的 音频 信号 定义 一 
个 编码 机 制 ， 但 在 这 一 节 我 们 只 考虑 MPEG 的 视频 方面 。 

1. 帧 类 型 

MPEG 接收 一 个 视频 帧 序列 作为 输入 ， 然 后 将 甚 压缩 成 三 种 类 型 的 帧 ， 分 别称 为 工 由 
(内 部 图 像 )、P 帧 (预测 图 像 》 和 BB 帧 (双向 预测 图 像 ;。 每 个 输入 的 帧 被 压缩 成 这 三 种 
类 型 之 一 。I 帧 可 以 作为 参考 帧 ,它们 是 独立 的 ， 既 不 依赖 前 面 的 帧 也 不 依赖 后 面 的 帧 。 
粗略 地 说 , I 帧 是 视频 源 对 应 帧 的 JPEG 压缩 形式 。P 帧 和 B 帧 不 是 独立 的 ， 它们 定义 了 
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相对 某 个 参考 帧 的 差 。 更 明确 地 说 , P 帧 说 明 与 前 一 个 工 帧 的 差 . 而 B wea ih — Tt 
或 了 帧 与 后 一 个 I 帧 或 了 帧 之 间 的 插值 。 

图 7-14 说 明 一 个 有 7 个 视频 帧 的 序列 . 由 MPEG 压缩 后 ,产生 一 个 由 I 帧 、P 帧 和 B 
帧 组 成 的 序列 。 两 个 I 帧 是 独立 的 ， 可 以 在 接收 方 解 压 缩 ， 不 依赖 任何 其 他 帧 。P 帧 依赖 
前 一 个 工 帧 ， 只 有 在 前 一 个 工 帆 到 达 后 ， 它 才能 在 接收 方 被 解压 缩 。 每 个 也 帧 既 依 赖 前 面 
的 工 帧 或 P 帧 又 依赖 后 面 的 工 帧 或 P 帧 。 MPEG 在 解压 缩 也 帧 重 现 诛 始 视频 帧 之 前 ， 这 些 
参考 帧 必须 到 达 接 收 方 。 
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图 7-14 MPEG 产生 的 1 巾 、P 帧 和 B 帧 的 序列 








压缩 流 


值得 注意 是 ， 央 为 每 个 B 帧 依赖 序列 中 的 后 面 一 帧 ， 因 而 压缩 帧 不 按 顺序 传输 。 图 7- 
13 中 所 示 的 IBBPBBI 顺序 就 变 成 IPBBIBB 的 传输 顺序 。 此 外 ，MPEG REX IWS P h 
和 B 帧 的 比率 ， 这 个 比率 可 能 依 压 缩 要 求 及 图 像 的 质量 而 变 。 例 如 ， 著 只 允许 传 T 帧 ， 这 
就 类 似 于 使 用 JPEG 压缩 视频 网 像 。 

与 前 面 JPEG 的 讨论 不 同 ， 下 面 我 们 要 集中 讨论 MPEG 流 的 解码 (decoding). EM 
描述 稍微 容易 一 些 ， 也 是 当今 网 络 系统 中 最 常 执 行 的 操作 ， 这 是 由 于 MPEG 的 编码 很 费 
时 ， 以 至 于 它 通常 是 脱 机 完成 的 〈 即 不 是 实时 的 )。 例 如 ， 在 视频 点 播 系统 中 ， 视 频 提 前 
被 编码 并 储存 在 磁盘 上 。 当 点 播 者 想 要 观看 视频 时 ，MPEG 流 就 被 传送 到 点 播 者 的 计算 机 
上 ,在 这 台 计 算 机 上 实时 解码 并 显示 。 

让 我 们 更 仔细 地 看 看 三 种 类 型 的 帧 。 如 上 所 述 ，I 帧 近似 等 于 源 帧 的 JPEG 压缩 形式 。 
其 主要 区 别 是 MPEG 以 16X16 宏 块 (macroblock) 为 单位 工作 。 对 一 个 用 YUV 表示 的 
彩色 视频 ， 每 个 宏 块 的 U 和 V 分 量 下 采样 变 成 8X8 的 块 。 也 就 是 说 ， 宏 块 中 每 个 2X2 
的 子 块 由 一 个 U 值 和 一 个 V 值 给 出 ， 即 4 个 像素 值 的 平均 值 。 该 子 块 仍然 有 4 个 Y 值 。 
能 够 这 样 做 是 因为 人 对 颜色 不 如 对 亮度 敏感 ， 所 以 不 太 精 确 地 传输 U 和 V 分量 对 人 们 观 
看 图 像 不 会 有 明显 的 干扰 。 帧 和 宏 块 之 间 的 对 应 关系 在 图 7-15 中 给 出 。 

P 帧 和 B 帧 也 是 以 宏 块 为 单位 处 理 的。 直觉 上 ， 我们 可 以 看 到 每 一 宏 块 携带 的 信息 捕 
捉 了 视频 图 像 的 动作 ， 也 就 是 说 ， 它 显示 宏 块 相 对 参考 帆 在 什么 方向 ， 移 动 了 多 远 。 下 面 
描述 解压 缩 期 间 如 何 用 吾 帧 重 构 一 个 帧 ， 也 可 以 用 类 似 的 方法 处 理 P 帧 ， 只 不 过 已 帧 仅 依 
赖 一 个 参考 帧 而 不 是 两 个 参考 帧 ，。 

在 详 述 B 帧 如 何 解压 缩 之 前 ， 我 们 首先 指出 ， 在 B 帧 中 的 每 一 宏 块 没有 必要 像 上 面 提 
出 的 那样 相对 前 一 个 和 后 一 个 帧 都 做 定义 ， 可 以 只 相对 前 一 帧 或 后 一 帧 来 说 明 。 事 实 上 ， 
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图 7-15 每 个 帧 作为 宏 块 的 集合 


B 帧 中 某 一 特定 的 宏 块 可 以 使 用 和 工 帧 中 同样 的 内 部 代码 .存在 这 种 灵活 性 是 因为 如 果 运 
动 图 像 变 化 太 快 ， 有 时 给 出 内 部 图 像 编 码 比 推算 向 前 或 向 后 编码 更 合适 。 这样. E B 帧 中 
的 每 一 宏 块 包含 一 个 类 型 字段 ， 说 明 安 块 使 用 哪 一 种 编码 。 在 以 下 的 讨论 中 . 我 们 只 考虑 
在 宏 块 中 使 用 双向 预测 编码 的 一 般 情况 。 

在 这 种 情况 下 ，B 帧 中 的 每 个 宏 块 用 一 个 4 元 组 表示 : 宏 块 在 帧 中 的 坐标 相对 前 一 
个 参考 帧 的 运动 向 量 ， ee 运动 向 量 . 宏 块 中 每 个 像素 的 增 量 6( 即 每 个 
像素 相对 于 两 个 参考 像素 变化 了 多 少 )。 对 宏 块 中 的 每 个 像素 ， 第 一 .不 任务 是 在 过 去 的 和 
未 来 的 参考 帧 中 查找 对 应 参考 像素 。 Sed ed 关 的 运动 向 量 来 完成 的 。 然 
后 ， 把 该 像素 的 增 量 $ 与 两 个 像素 的 平均 值 相 加 。 更 准确 地 说 ， rials 和 F 
表示 过 去 的 和 未 来 的 参考 帧 ， 并 且 由 ps yp) 和 (xt， wi) 给 出 过 去 和 未 来 的 运动 向 
量 ， 那 么 当前 帧 RRK Fo 中 在 坐标 Cr, y) 处 的 像素 由 如 下 4 oe 

Fely) = (F le roy y) +F ttry t+ WNT 
其 中 6 是 B 帧 中 说 明 的 那个 像素 的 增 量 。 这 些 增 量 的 编码 方法 与 编码 1 帧 像素 的 方法 相 
同 。 就 是 说 ， 它 们 通过 DCT， 然 后 量化 。 由 于 增 量 通常 很 小 . 所 以 大 多 数 DCT 系数 量化 
后 为 0， 因 此 它们 可 能 被 有 效 地 压缩 。 

从 前 面 的 讨论 中 我 们 已 经 非常 清楚 如 何 进行 编码 ， 但 有 一 个 例外 . 压缩 期 间 生 成 一 
个 B 帧 或 P 帧 时 ， T 回想 一 下 P 帧 中 的 每 个 宏 块 . 
比如 ， 它 相对 于 I 帧 中 的 一 个 宏 块 来 定义 , 但 P 帧 中 的 那个 宏 块 不 必 和 工 帧 中 对 应 的 宏 
块 在 帧 的 同一 部 位 ， ee 尔 可 能 想 选 取 一 个 运 IRR, {E P iwi 
EH AY R R AT REZAT IH PA AR. TK AER AY e IS nT AED RS A.B 
必须 计算 出 将 该 图 片 中 的 对 象 从 一 帧 移 到 了 下 一 帧 的 什么 位 置 . 这 是 一 个 运动 估计 
(motion estimation) 问题 ， 而 且 已 有 解决 这 个 问题 的 多 种 技术 OR RATE). CHE AR EE 
末尾 “扩展 阅读 ”中 我 们 将 讨论 研究 这 个 问题 的 文章 .) 这 个 问题 的 难点 正 是 在 同样 的 
硬件 上 ，MPEG 编码 比 解码 所 花费 的 时 间 长 的 原因 之 一 。 如 上 所 述 ，MPEG 并 不 指定 任 
何 特定 的 技术 ， 它 只 定义 将 信息 编码 码 到 B 帧 和 P 帆 中 的 格式 以 及 解压 缩 期 间 重 构 像素 的 
算法 。 

2. 效率 和 性 能 

尽管 高 达 150 : 1 的 MPEG 压缩 比 并 非 前 所 未 闻 ， 但 一 般 情况 下 MPEG 的 压缩 比 为 
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90 : 1。 就 帧 的 类 型 而 言 ， 对 工 帆 来 说 压缩 比 大 约 可 达到 30 : 1 (这 与 先 将 24 位 颜色 减 到 8 
位 颜色 时 用 JPEG 完成 的 压缩 比 是 一 致 的 )， 而 P 了 帧 和 B 帧 通常 的 压缩 比 要 比 I 帧 高 3 一 5 
倍 。 如 果 不 先 将 24 位 颜色 减 到 8 位 颜色 ， 用 MPEG 可 达到 的 压缩 比 一 般 在 30 : 1~507 1 
之 间 。 

MPEG 涉及 非常 耗 时 的 计算 。 在 压缩 端 通常 脱 机 完成 ， 在 为 视频 点 播 服 务 准备 影片 方 
面 ， 这 并 不 是 一 个 问题 。 如今 可 以 使 用 硬件 实时 压缩 视频 ， 但 是 软件 实现 正在 很 快 弥合 这 
种 差距 。 在 解压 缩 的 一 端 ， 可 以 利用 廉价 MPEG 视频 解压 缩 卡 ， 但 它 所 做 的 与 YUV 色彩 
查找 没什么 差别 ， 这 恰好 解决 了 开销 最 大 的 一 步 。 多 数 现 用 的 MPEG 解码 是 由 软件 完成 
的 。 在 最 近 几 年 ， 当 纯粹 用 软件 解码 MPEG 流 时 ， 处 理 器 已 经 快 到 足够 保持 每 秒 30 帧 的 
视频 速率 一 一 现代 处 理 器 甚至 可 以 解码 高 分 辩 率 的 MPEG 视频 流 CHDTYV ) 。 

3. 其 他 视频 编码 标准 

我 们 在 结束 讨论 时 指出 MPEG 不 是 唯一 可 用 于 编码 视频 的 标准 。 例 如 ， 为 编码 实时 
多 媒体 数据 ，ITU-T 也 定义 了 “HH 系列 ”标准 。H 系列 通常 包括 视频 标准 、 音 频 标 准 、 
控制 标准 和 多 路 复 用 技术 标准 〈 例 如 ,将 音频 、 视 频 以 及 数据 混合 到 单个 比特 流 上 )。 在 
这 个 系列 中 ，H. 261 和 H. 263 是 第 一 代 和 第 二 代 的 视频 编码 标准 。 与 以 1. 5Mbps 比特 率 
为 目标 的 MPEG 的 早期 版 本 不 同 ，H. 261 和 H. 263 用 于 更 低 的 速率 。 它 们 用 于 综合 服务 
数字 网 (Integrated Services Digital Network, ISDN) 标准 ， 支 持 以 64kbps 为 增 量 的 可 用 
带宽 链 路 上 的 视频 。 大 体 上 看 ，H. 261 AH. 263 都 与 MPEG 有 许多 类 似 的 地 方 : 它们 都 
使 用 DCT、 量 化 和 中 间 帧 压缩 。H. 261/H. 263 与 MPEG 只 是 在 细节 上 有 一 些 差 别 。 事实 
上 ， 比 较 新 的 H. 264 标准 也 是 MPEG 一 4 标准 的 一 部 分 。 随 着 视频 被 越 来 越 多 的 设备 所 支 
持 ， 从 连接 低 带宽 蜂窝 无 线 网 的 小 屏幕 设备 到 连接 光缆 高 带宽 的 大 型 电视 机 ,在 这 个 领域 
可 能 会 有 更 多 的 创新 要 求 和 更 多 的 标准 。 





7.2.4 在 网 上 传输 MPEG 


TE (RAS He pi TE IM BRE. MPEG 不 只 是 定义 怎样 压缩 视频 ,还 定义 MPEG 压缩 的 
视频 格式 。 同 样 ，JPEG 和 GIF 定义 静止 图 像 的 格式 。 先 看 一 下 MPEG， 首 先 记 住 它 定义 
视频 流 格式 ， 而 并 不 指明 如 何 将 这 个 流 拆 成 网 络 分 组 。 这 样 ，MPEG 不 但 可 用 于 存储 在 磁 
盘 上 的 视频 ， 也 可 用 于 在 一 个 面向 流 的 网 络 连接 上 传输 的 视频 ， 类 似 TCP 提供 的 连接 。 
稍 后 ， 我 们 将 更 详细 地 说 明 如 何 将 一 个 MPEG 流 拆 成 网 络 分 组 。 

MPEG 格式 是 本 书 中 讨论 的 协议 中 最 复杂 的 一 种 。 其 复杂 的 原因 在 于 要 求 编码 算法 对 
给 定 的 视频 流 编码 有 各 种 可 能 的 选择 。 复 人 杂 的 原因 还 在 于 随 着 时 间 的 推移 ， 标 准 不 断 地 发 
展 ( 即 MPEG-1 和 MPEG-2)。 以 下 描述 的 是 MPEG-2 视频 流 的 主 型 (main profile)。 你 
可 以 把 MPEG 的 “型 ”看 作 是 与 某 种 “版 本 ”类 似 ， 但 在 MPEG 的 首部 中 并 不 明确 说 
明 ; 接收 方 必须 综合 它 所 看 到 的 首部 字段 ， 推 断 出 视频 流 的 型 。 

如 图 7-16 所 示 ，MPEG-2 流 的 主 型 具有 骨 套 结构 。( 注 意 这 个 图 隐藏 了 许多 琐碎 的 细 
D.) 在 最 外 层 ， 视 频 包 含 一 个 由 SeqHdr 分 隔 的 图 片 组 (GOP) 序列 。 该 序列 由 SeqEnd- 
Code (0xb7) 结束 。SeqHdr 位 于 每 个 GOP 前 ， 说 明 GOP 中 每 个 图 片 〈 帧 )》 的 大 小 (以 
像素 和 安 peat eee: ET Ns UIA ten eee Pasion SO RARE 
量化 矩阵 -个 用 于 帧 内 编码 安 块 (I 块 )， 另 一 个 用 于 帧 间 编 码 安 块 CB 块 和 P 块 )。 
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由 于 这 个 信息 针对 每 个 GOP 2 h td AS FE: Gn AR FE ir BA SRE EN AT OT TE BE Be] 
所 以 可 以 在 整个 视频 的 GOP a YE EAE ae fe K A, TE FE TP me. Gem ie 
能 适应 视频 流 随时 间 的 变化 . 


SeqHdr 图 片 组 SeqHdr 图 片 组 vee SeqEndCode 
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图 7-16 压缩 的 MPEG 视频 流 格式 


每 个 GOP 由 一 个 GOPHdr 给 出 , 后面 跟 着 构成 这 个 GOP 的 一 组 图 片 。GOPHdr 说 

明 这 个 GOP 内 图 片 的 数目 ， 以 及 这 个 GOP 的 同步 信息 ( 即 当 GOP 播放 时 ， 相 对 于 这 个 
视频 的 开始 )。 每 个 图 片 依次 由 PictureHdr 和 构成 这 个 图 片 的 一 组 片段 (slice) 给 出 。( 
个 片段 是 这 个 图 片 的 一 个 区 域 ， 例 如 一 条 水 平 线 .) PictureHdr 标识 图 片 的 类 型 (I、B 或 
P)， 除 此 之 外 还 es HEK. SliceHdr 给 出 片段 的 顶点 位 置 ， 并 给 出 一 次 改变 
量化 表 的 机 会 一 一 通过 乘 一 个 常量 比例 因子 而 不 通过 给 出 一 个 全 新 的 量化 表 。 接着， 在 
SliceHdr 后 面 跟着 最 后 ， 每 个 宏 块 包含 一 个 首部 ， 用 来 说 明 块 在 网 片 内 的 地 
以 及 这 个 宏 块 内 的 6 个 数据 块 : 1 个 U 分 量 、1 个 V 分 量 和 4 个 立 分 量 。 (回忆 一 下 ， 

Y 分 量 是 16X16 的 ,而 器 分 量 和 V 分 量 是 8X8 的 。 ) 

显然 MPEG E ee -个 随时 修改 编码 的 机 会 。 它 能 更 
改 帧 速率 、 分 辨 率 、 定 义 GOP 的 混合 帧 类 型 、 meet 个 宏 块 的 编码 。 因此 ， 通 
过 权衡 网 络 带 宽 与 图 片 质量 ， 它 就 能 适应 在 网 ey 网 络 协议 怎样 利用 这 
种 适应 性 是 当前 的 一 个 热门 研究 课题 ( 见 “ 相 关 主 题 ”) 。 

在 网 上 发 送 视频 流 的 另 一 个 重要 问题 是 如 何 把 流 恰好 拆 成 分 组 .如 果 在 TCP 的 连接 
上 发 送 视 频 流 ， 拆 成 分 组 是 不 成 问题 的 ，TCP 判定 何 时 有 足够 多 的 字 节 发 送 下 一 个 IP 数 
据 报 。 但 使 用 交互 式 视频 时 ， 极 少 在 TCP 上 传输 ， 因 为 TEP 对 丢失 数据 段 的 重 传 会 产生 
不 可 接受 的 延迟 。 如 果 我 们 用 UDP 传输 视频 ， 就 要 谨慎 地 选择 流 的 拆 分 点 ， 例 如 、 可 以 
选择 宏 块 的 边界 。 这 是 因为 我 们 想 把 一 个 丢失 的 分 组 造成 的 影响 限制 在 一 个 宏 块 中 .而 不 
会 因为 一 个 丢失 的 数据 段 而 同时 损坏 几 个 宏 块 。 这 就 是 一 个 应 用 层 组 帧 的 实例 ，5. 4 节 已 
经 讨论 过 这 一 主题 。 
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拆 分 视频 流 只 是 在 网 上 发 送 MPEG 压缩 视频 的 第 一 个 问题 。 下 一 个 复杂 的 问题 是 处 
理 分 组 的 委 失 。 一 方面 . 如 果 也 帧 被 网 络 丢 弃 ， 那 么 它 可 能 简单 地 重 放 前 一 帧 ， 不 会 严重 
地 影响 视频 播放 . 30 帧 中 丢失 1 帧 不 是 大 问题 。 男 一 方面 ， 丢 失 I 帧 会 有 严重 的 后 果 一 一 
LAE. 随后 的 也 帧 和 了 帧 就 不 能 处 理 。 因 此 ， 委 失 工 帧 会 导致 丢失 若干 视频 帧 。 虽 然 你 
可 以 重 传 故障 的 I 帧 ,但 因此 产生 的 延迟 在 实时 视频 会 议 中 大 概 是 不 可 接受 的 。 这 个 问题 
的 一 个 解决 方案 是 使 用 6. 5.3 节 介 绍 的 区 分 服务 技术 ,将 含有 工 帧 的 分 组 标记 为 比 其 他 分 
组 小 的 丢失 概率 。 

最 后 注意 怎样 选择 编码 视频 不 只 取决 于 可 用 网 络 带 宽 ， 还 取决 于 应 用 程序 对 延迟 的 限 
制 。 像 视频 会 议 这 样 的 交互 式 应 用 程序 要 求 延 迟 很 小 。 关键 的 因素 是 在 GOP FI tt, P 帧 
M B 帧 的 组 合 。 考 虑 下 列 GOP; 

IBBBBPBBBBI 

这 个 GOP 使 视频 会 议 应 用 程序 产生 的 问题 在 于 ， 发 送 方 必须 延迟 4 个 B 帧 的 传输 ， 直 至 
得 到 它们 后 面 的 P 帧 或 I 帧 。 这 是 因为 每 个 B 帧 依赖 于 后 续 的 P 帧 或 工 帧 。 假 设 视频 以 15 
帧 /s 的 速率 显示 ( 即 1 帧 /67ms)， 这 就 意味 着 第 一 个 B 帧 被 延迟 4X67ms， 大 于 0. 25s。 
这 个 延迟 不 包括 由 网 络 产生 的 传播 延迟 。0. 25s 远 远 大 于 人 有 眼 可 感知 的 100ms 的 最 低 限 
E. 为 此 许多 视频 会 议 使 用 JPEG 编码 视频 ，JPEG 常常 被 称 为 运动 -JPEG。 (由 于 所 有 帧 
都 能 独立 ， 因 此 运动 -JPEG 还 能 解决 丢失 参考 帧 的 问题 .) 但 是 要 注意 ， 一 个 只 依赖 于 先 
前 的 帧 而 不 依赖 后 面 的 帧 的 中 间 帧 的 编码 不 会 成 为 问题 。 这 样 ， 一 个 形 如 


IPPPPI 
的 GOP 会 在 交互 式 视 频 会 议 中 工作 正常 。 

相关 主题 

自 适应 视频 编码 


我 们 已 经 讲 过 ， 使 用 MPEG 的 视频 编码 允许 在 图 像 的 质量 和 消耗 的 带宽 之 间 进 行 权 
衡 。 相 反 ， 显 人 然 在 某 些 质量 级 别 上 操作 的 视频 压缩 算法 的 输出 带宽 一 般 不 会 是 常量 ,而 是 
根据 视频 流 中 细节 和 运动 的 数量 随时 间 变 化 的 。 这 些 事实 引发 了 一 些 重要 的 问题 ， 如何 设 
计 一 个 在 分 组 交换 网 上 传输 压缩 视频 的 系统 。 

假设 我 们 有 一 个 视频 编 解码 器 ， 它 以 R bps 的 平均 速率 输出 压缩 的 视频 流 ， 但 是 偶然 
会 暴涨 到 3R bps。 假 使 我 们 让 视频 流通 过 一 个 “平滑 缓冲 区 ”平滑 掉 瞬 时 传输 速率 中 的 峰 
值 ， 我 们 就 可 以 在 容量 为 尺 的 固定 带宽 管道 (如 一 条 租用 线路 或 CBR 电路 ) 上 传输 这 个 
视频 流 。 现 在 ， 可 能 在 某 一 时 刻 平滑 缓冲 区 发 生 滋 出， 也许 是 由 于 电影 中 一 系列 很 长 的 动 
作 导 致 视频 编码 解码 器 在 较 长 一 段 时 期 内 的 高 速率 输出 。 这 时 ， 我 们 可 以 暂时 增加 压缩 数 
量 ， 由 此 降低 数据 速率 〈 和 图 片 质量 )， 容 许 腾 空 平 滑 缓冲 区 。 当 平滑 缓冲 区 接近 空 时 ， 
我 们 再 提高 编码 质量 。 

我 们 在 分 组 交换 网 上 能 做 很 多 相同 的 工作 ， 但 是 不 用 平滑 缓冲 区 。 假 设 我 们 有 办 法 测 
量 可 用 容量 以 及 沿 一 条 路 径 的 拥塞 程度 ， 比 如 ， 使 用 6.5.5 节 讲 述 的 基于 等 式 的 拥塞 控制 
算法 。 在 可 用 带宽 波动 时 ， 我 们 可 以 把 信息 反馈 到 编 解 码 器 以 便 调 整编 码 参 数 ， 使 其 在 拥 
塞 期 间 缩 减 ， 且 在 网 络 空 用 时 更 积极 地 (用 较 高 图 片 质量 ) 发 送 。 这 类 似 TCP 的 行为 ， 
除了 传输 视频 的 情况 ， 我 们 宁愿 实际 修改 发 送 的 总 数据 量 也 不 愿意 修改 发 送 定量 数据 需要 
花费 的 时 间 ， 因 为 我 们 不 想 把 延迟 引入 视频 应 用 程序 。 
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如 果 我 们 把 一 个 视频 流 多 播 (multicasting) 到 许多 接收 方 就 会 出 现 一 个 有 趣 的 问题 
由 于 视频 流 可 能 经 历程 度 不 同 的 拥塞 ， 那 么 如 何 为 每 个 接收 方 选择 恰当 的 速率 ?解决 这 个 
问题 的 巧妙 方案 是 将 被 传输 的 视频 流 拆 分 为 一 些 “ 层 ”。 第 一 层 包 含 图 片 所 需 的 基本 细节 ， 
而 后 续 的 层 加 入 更 多 由 更 高 频 信息 组 成 的 细节 。 然 后 每 一 层 发 送 到 不 同 的 多 播 组 地 址 ， 这 
样 每 个 接收 方 可 以 决定 要 加 入 多 少 层 。 如 果 接 收 方 A 经历 严重 拥塞 ， 那 么 它 就 只 参加 携带 
基本 层 的 多 播 组 ， 而 接收 方 也 可 能 加 入 所 有 层 。 接 收 方 A 可 以 定期 尝试 参加 下 一 层 的 细 
节 看 看 是 否 有 足够 带宽 可 用 。 这 种 方法 称 为 接收 方 驱动 的 分 层 多 播 (receiver-driven lay- 
ered multicast，RLM)。 一 个 值得 研究 的 问题 是 ， 如 何 建 立 一 组 激励 使 接收 方 参加 恰当 数 
目的 组 而 不 参加 所 有 组 ， 因 为 和 参加 太 多 的 组 会 引发 不 必要 的 网 络 拥塞 。 





7.2.5 音频 压缩 (MP3) 


MPEG 不 仅 定 义 如 何 压缩 视频 ， 它 还 定义 了 压缩 音频 的 标准 。 这 个 标准 可 用 于 压缩 电 
影 的 音频 部 分 (此 时 ，MPEG 标准 定义 在 一 个 MPEG 流 中 压缩 音频 与 压缩 视频 如 何 交 
错 )， 或 压缩 独立 的 音频 (例如 音频 CD) 。 

为 了 清楚 音频 压缩 ， 我 们 必须 从 数据 开始 。CD 质量 的 音频 实际 上 是 高 品质 音频 的 数 
字 表 示 ， 它 是 以 44. 1kHz 频率 采样 的 〈 即 大 约 每 23ms 采样 一 次 )。 每 个 样本 16 ER È 
意味 着 一 个 立体 声 (2 声 道 ) 音频 流产 生 一 个 如 下 的 比特 速率 : 

2X44.1X1 000X16=1. 41Mbps 
比较 起 来 ， 电话 质量 的 声音 是 以 8KHz 频率 采样 的 ， 具有 8 比特 的 样本 .产生 64kbps 的 
比特 速率 ， 并 非 巧合 ， 这 正 是 ISDN 链 路 的 速度 。 

显然 ， 在 容量 为 128kbps 的 一 对 ISDN 数据 /声音 线 上 传输 CD 质量 音频 需要 一 定量 的 
FESR. 尤其 糟糕 的 是 ， 同步 和 错误 校正 开销 需要 用 49 比特 编码 每 个 16 比特 样本 ， 这 使 得 





实际 的 比特 速率 为 表 7-2 _MP3 的 压缩 率 
49/16X1.41Mbps=4. 32Mbps 编 码 比特 速率 压缩 因子 





MPEG 通过 定义 三 级 压缩 来 解决 这 种 需求 , 表 7-2 中 yel | 38tkbps | 4 
给 出 其 定义 。 其 中 ，Layer N (更 广为人知 的 名 
称 为 MP3) 是 最 常用 的 。 

为 了 达到 这 样 的 压缩 率 ，MP3 使 用 MPEG 压缩 视频 所 使 用 的 类 似 技术 。 首先， 它 把 
音频 流 拆 分 为 某 些 频率 的 子 波段 ， 大 致 类 似 于 MPEG 分 别 对 视频 流 分 量 Y、U 和 V 的 处 
理 方法 。 其 次 ， 每 个 子 波段 被 分 成 一 系列 的 块 ， 除 了 其 长 度 可 以 在 64 一 1 024 个 样本 之 间 
变化 外 ， 它 类 似 于 MPEG 的 宏 块 。( 编 码 算法 可 以 根据 某 些 失真 效果 改变 块 的 大 小 ， 音 响 
失真 效果 超出 我 们 讨论 的 范围 最 后 ， 就 像 对 MPEG 视频 那样 ， 每 个 块 用 改进 的 DCT 
算法 进行 变换 、 量 化 和 赫 夫 曼 编码 。 

MP3 的 诀窍 在 于 选择 使 用 多 少子 波段 以 及 为 每 个 子 波段 分 配 多 少 比特 ， 要 记 住 这 就 
是 尝试 产生 目标 比特 速率 允许 的 最 佳 质量 的 音频 。 如 何 准确 完成 这 些 分 配 是 由 音质 模型 来 
控制 的 ， 这 超出 本 书 的 讨论 范围 。 但 为 了 说 明 这 个 思想 ， 考 虑 在 压缩 男声 时 分 配 较 多 比特 
给 低频 子 波段 ， 而 在 压缩 女声 时 分 配 较 多 比特 给 高 频 子 波段 ， 这 是 有 道理 的 。 在 操作 上 ， 
MP3 动态 修改 每 个 子 波段 的 量化 表 ， 使 每 个 子 波段 达到 理想 的 效果 。 

一 旦 进行 压缩 ， 子 波段 就 被 打包 成 定 长 的 帧 ,而且 附 上 一 个 帧 首部 。 这 个 帧 首部 不 但 
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包括 同步 信息 . 而 且 还 包括 解码 器 为 确定 编码 每 个 子 波段 使 用 多 少 比 特 所 需要 的 比特 分 配 
信息 。 如 上 所 述 . 这 些 音 频 帧 就 能 与 视频 帧 交替 形成 完整 的 MPEG 流 。 值 得 说 明 的 一 点 

， 在 可 能 发 后 拥塞 的 网 络 中 ， 虽 然 亚 弃 B 帧 可 行 ， 但 经 验 告 诉 我 们 ， EF MRE 
FFER B., KASH EE A e H BE EL A 


7.3 小 结 


本 章 描 述 了 网 络 分 组 中 的 应 用 程序 数据 是 如 何 编 码 的 。 与 本 书 前 面 介绍 的 网 络 协议 不 
fE]. RS oes, T E 
ERSS. AR ERR BEL. AHE 3K A AY ATR o 

第 一 个 问题 是 表示 格式 化 ， 其 中 难点 是 格式 化 应 用 程序 计算 的 不 同 数 据 类 型 ， 整数 、 
浮 点 数 、 字 符 串 、 数 组 以 及 结构 。 这 既 涉 及 计算 机 和 网 络 之 间 字 节 顺 序 的 转换 ， 也 涉及 复 
合 数据 结构 的 线性 化 . 我们 概述 了 表示 格式 化 的 设计 空间 ， 以 及 在 这 个 设计 空间 中 处 于 不 
同位 置 的 四 种 特 丈 机制: XDR、ASN.1、NDR 以 及 越 来 越 重要 的 XML, 

第 二 个 问题 是 压缩 ， 它 所 关心 的 是 减少 传输 不 同类 型 的 数据 所 需 的 带宽 。 压 缩 算法 可 
以 是 无 损 压缩 或 者 是 有 损 压缩 ， 有 损 压 缩 算法 最 适合 图 像 和 视频 数据 。JPEG、MPEG 和 
MP3 是 有 损 压缩 协 议 的 例子 ,分 别 用 于 静态 图 像 、 视 频 和 音频 数据 。MPEG 系列 等 视频 
压缩 和 编码 格式 要 继续 发 展 ， 以 在 有 限 的 可 用 宽带 内 满足 更 高 的 质量 需求 。 


接 下 来 会 发 生 什 么 : 无 处 不 在 的 视频 

有 一 点 几乎 不 用 强调 ， 视频 是 现在 因特网 流量 的 主要 部 分 ， 它 具有 三 屏幕 (three- 
screen) 能 力 ， 即 可 以 re 电脑 和 手机 ， 这 是 计算 、 通 信和 娱乐 业 的 首要 目标 。 
这 i 发 了 很 多 有 趣 的 问题 。 问 题 之 一 是 这 些 视频 都 会 影响 因特网 所 需 宽 带 。 今 天 从 互联 网 

下 够 的 配置 能 力 到 把 娱乐 视频 传播 给 每 一 个 看 电视 或 租 DVD 的 人 ,我 们 还 有 很 长 一 段 
这 不 仅 推 动 了 人 们 对 更 大 网 络 容量 的 需求 ， 也 促进 了 “内 容 为 中 心 网 络 ” 等 新 型 
网 络 体系 结构 的 提出 

与 本 竟 内 容 更 直接 相关 的 是 是 ， 在 这 个 新 的 视频 格式 无 处 不 在 的 环境 中 ， 需 求 聚集 在 编 
但 和 表示 格式 上 。 作 为 这 个 部 分 所 面临 的 挑战 的 一 个 例子 ， 考 虑 这 样 一 个 事实 ， 即 视频 流 
中 的 三 个 主要 开发 者 (Microsoft@ , Adobe® #1 Apple®) 都 开发 出 了 自己 的 从 网 站 到 浏览 
侣 的 不 同 视频 流 协 议 。 用 户 可 以 在 浏览 融 上 安装 恰当 的 插件 来 解决 大 多 数 的 不 兼容 情况 ， 
但 是 在 一 些 不 灵活 的 设备 上 ， 比 如 手机 ， 就 会 出 现 明 显 的 混乱 。 随 着 网 络 电 视 和 机 顶 盒 的 
出 现 ， 不 奈 容 视频 格式 似乎 就 变 成 了 一 个 持续 让 用 TP OR TE 

HT MLS fy it SEER HE ik LR E > Fo — EAL ate BS FF AS BD eS AS AN 
— 以 此 来 成 为 它们 最 低 的 共同 标准 ， 但 是 这 个 过 程 至 今 还 没 能 实现 。 专 利 问题 导致 了 
参与 标准 制定 过 程 的 人 犹 移 是 否 要 确定 一 个 格式 ， 因 为 他 们 害怕 一 旦 专利 被 侵犯 它们 的 
不 知名 的 所 有 者 就 会 露面 表示 不 满 。 

由 于 IP 视频 无 处 不 在 而 成 为 人 们 关注 焦点 的 另 一 个 问题 是 设备 的 方便 配置 和 管理 。 
尽管 现在 一 些 因 特 网 用 户 对 于 配置 网 络 参 数 得 心 应 手 (我 的 ISP 应 该 使 用 DHCP. 还 是 
PPoE7?)， 但 是 对 于 一 般 的 电视 买 家 来 说 ， 他 们 不 太 可 能 想 进行 比 调 台 按钮 更 复杂 的 配置 ， 
对 于 JP 设备 的 即 插 即 用 配置 仍然 是 一 个 很 重要 的 目标 ， 这 样 即便 不 是 网 络 专家 也 有 能 力 
排除 这 些 设备 的 故障 。 这 是 管理 家 庭 设 备 这 个 更 大 的 问题 的 一 部 分 ， 目 前 已 成 为 网 络 上 的 
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热门 话题 之 一 。 


扩展 阅读 


我 们 本 章 的 推荐 阅读 列表 的 前 两 篇 文章 分 别 给 出 JPEG 标准 和 MPEG 标准 的 概述 
它们 的 主要 价值 是 阐明 形成 标准 的 各 种 因素 。 我 们 还 推荐 一 篇 有 关 接 收 方 驱动 的 分 层 多 播 
的 文章 ， 作 为 系统 设计 方法 的 一 个 优秀 实例 ， 它 包含 多 播 问题 、 拥 塞 控制 问题 和 视频 编码 
问题 。 
e Wallace, G. K. The JPEG still picture compression standard. Communications of 
the ACM 34 (1); 30-44, April 1991. 

e Le Gall, D. MPEG: A video compression standard for multimedia applications. 
Communications of the ACM 34 (1); 46-58, April 1991. 

e McCanne, S., V. Jacobson, and M. Vetterli. Receiver-driven layered multicast. 
Proceedings of the SIGCOMM’96 Symposium. pages 117-130, September 1996. 

遗憾 的 是 ,没有 一 篇 文章 给 出 表示 格式 的 详尽 论述 。 除了 XDR, ASN. 1/BER 和 
NDR 的 规范 Cul Eisler [Eis06]、CCITT 建议 标准 [CCITT92a，CCITT92b]， 以 及 开放 
软件 基金 会 [OSF94]) 之 外 ， 还 有 另外 三 篇 文章 包含 有 关 表 示 格 式 化 的 主题 : O’ Malley 
等 [OPM94]、Lin [Lin93] 和 Chen 等 [CLNZ89]. 这 三 篇 文章 都 讨论 有 关 性 能 的 问题 . 

关于 压缩 的 话题 ， 最 好 从 赫 夫 曼 编码 开始 。 替 夫 曼 编码 最 初 定义 在 LHuf52」 中。 最 
PÉI LZ 算法 是 在 Ziv 和 Lempel [ZL77] 中 介绍 的 ,并且 其 改进 算法 也 是 由 同一 作者 发 表 
在 [ZL78] 中 。 这 些 文章 都 是 纯 理 论 的 。 把 LZ 方法 引入 广泛 的 实践 领域 的 工作 可 在 
Welch [Wel84] 中 找到 。 关 于 压缩 问题 更 全 面 的 概述 ， 我 们 推荐 Nelson [Nel92). 你 还 
可 以 从 最 新 的 一 些 关于 多 媒体 的 书 中 学 习 有 关 压 缩 的 知识 。 我 们 推荐 Witten 等 
[WMB99]， 它 有 很 高 的 科学 价值 ， 且 很 少 有 天 花 乱 坠 的 宣传 ， 而 Buford [Buf94] 汇集 了 
跨越 多 媒体 各 个 主题 的 一 些 重要 章节 。 对 MPEG 标准 的 全 面 描 述 见 Mitchell 等 
LMPFL96]。 对 MP3 的 描述 见 Noll [Nol97]. 

最 后 ， 我 们 推荐 下 列 时 常 更 新 的 网 站 作为 参考 : 

。 http://www. w3. org/TR/REC. xml/: 最 新 的 XML 标准 。 

。 http://mpeg. chiariglione. org/: MPEG 主页 ， 很 多 MPEG 资料 的 来 源 。 


习题 
1. 考虑 如 下 的 C 代码 : 
#define MAXSTR 100 


struct date | 
char month{MAXSTRJ; 
int day; 
int = year; 

Le 

y 

struct employee { 

char name[MAXSTR] ; 


< 
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~ 


CD 


an 


9; 


/ 10. 
ll. 


int ssn; 


struct date *hireday:; 


int salary_history[5]: 
int num_raises;: 
static struct date date0 = (“DECEMBER", 2, 1998); 
static struct date datel = {"JANUARY", 7, 20021; 
Static struct employee employeeO = |"RICHARD", 4376, 
&dated, (80000, 85000, 
90000. 0, 0), 2); 
static struct employee employeel = {"MARY", 4377, 


&datel, {90000, 
150000, 0, 0; Ol, LI; 


Hp, num_raises+1 对 应 于 数组 salary_history 中 有 效 条 目的 个 数 。 请 给 出 由 XDR 生成 的 employee 
的 实际 表示 法 。 


: 对 于 上 题 ， 请 给 出 由 XDR 生成 的 employeel 的 实际 表示 法 。 
3. 对 习题 1 给 出 的 数据 结构 ， 请 给 出 对 这 个 结构 进行 编码 /解码 的 XDR 例 程 。 如 果 你 有 可 用 的 XDR， 运 


行 这 个 例 程 并 测试 它 对 一 个 employee 结构 的 实例 进行 编码 和 解码 所 花费 的 时 间 。 


. (HHE eK BW htonl 和 Unix 的 beopy 或 Windows 的 CopyMemory 实现 一 个 例 程 ， 该 例 程 产生 习题 1 中 给 


定 结构 的 实际 表示 与 XDR 产生 的 完全 相同 。 如 果 可 能 ， 比 较 这 个 “手写 ”的 编码 /解码 器 与 相应 的 
XDR 例 程 之 间 的 性 能 差别 。 


- 使 用 XDR 和 htonl 分 别 对 有 1 000 个 元 素 的 整 型 数组 进行 编码 。 测 量 并 比较 每 种 方法 的 性 能 。 对 于 读 


和 写 1 000 个 元 素 的 整 型 数组 的 简单 循环 如 何 进行 比较 ? 分 别 在 一 个 本 地 字 节 顺序 和 网 络 字 节 顺 序 相 
同 的 计算 机 上 以 及 一 个 本 地 字 节 顺序 和 网 络 字 节 顺序 不 同 的 计算 机 上 进行 实验 。 


- 写 出 你 自己 的 htonl 实现 。 使 用 你 的 htonl 和 《如 果 低 端 字 节 序 表示 法 硬件 可 用 ) 标准 库 版 本 ， 进 行 恰 


当 的 实验 来 确定 字 节 交换 整数 比 只 拷贝 它们 多 花 多 长 时 间 。 


- 给 出 如 下 3 个 整数 的 ASN. 1 编码 。 注 意 ASN. 1 整数 与 XDR 中 的 一 样 ， 长 度 为 32 位 。 


(a) 101。 
(b) 10 120, 
(c) 16 909 060, 


gA ji 


. 给 出 下 列 3 个 整数 的 ASN. 1 编码 。 注 意 ASN. 1 整数 与 XDR 中 的 一 样 ， 长 度 为 32 位 。 


(a) 15, 
Cb) 29 496 729. 
Cc) 58 993 458, 
给 出 习题 7 中 整数 的 高 端 字 节 序 和 低 端 字 节 序 表 示 。 
给 出 习题 8 中 整数 的 高 端 字 节 序 和 低 端 字 节 序 表示 o 
用 XDR 对 网 5-18 所 示 的 SunRPC 协议 首部 进行 编码 和 解码 。XDR 的 版 本 是 由 RPCVersion 字段 决定 
的 。 这 样 做 可 能 有 什么 困难 ?用 新 版 本 的 XDR 能 否 转变 成 低 端 字 节 序 整 型 格式 ? 


. 表示 格式 化 过 程 有 时 被 看 作 是 与 应 用 程序 分 开 的 独立 协议 层 。 假 设 如 此 ， 为 什么 在 表示 层 包含 数据 


压缩 不 是 一 个 好 主意 ? 


. 假设 你 有 一 台 字 长 为 36 位 的 计算 机 ， 串 被 表示 为 每 个 字 包 含 5 个 压缩 的 7 位 字符 。 为 了 让 这 台 计 算 


机 能 与 其 他 计算 机 交换 整数 和 串 数据 ， 必 须 解决 什么 表示 法 问题 ? 


» 选择 一 种 能 支持 用 户 定义 的 自动 类 型 转换 的 程序 设计 语言 ， 定 义 类 型 netint 并 提供 在 int 和 netint 之 


间 进 行 赋值 和 相等 比较 的 转换 。 推 广 这 种 方法 可 以 解决 网 络 参 数 排列 问题 吗 ? 


+ 不 同体 系 结构 对 位 顺序 以 及 字 节 顺序 有 不 同 约定 ， 例 如 ， 字 节 的 最 低 有 效 位 是 第 0 位 还 是 第 7 位 。 


SY 
N 
Ei 
Re 





x 16. 


Lfs 
18. 


x 19. 


* 20. 


21. 
ZX 


_ 


* 23. 


dh 
> 


26. 


[Pos81] (在 附录 已 中 ) 定义 标准 的 网 络 位 顺序 。 为 什么 位 顺序 与 表示 格式 无 关 % 

CEI. Spl 是 用 高 端 字 节 序 表示 的 分 数 , 1 一 p 则 用 低 端 字 节 夺 表 示 。 假设 我 们 随机 选择 西 台 

计算 机 并 把 int 型 数据 从 一 台 计 算 机 发 送 到 另 一 台 计 算 机 ， 对 于 p 二 0.1、p 二 .5 和 pp 二 0.9， 给 出 用 

于 高 端 字 节 序 表示 法 网 络 字 节 顺序 格式 和 接收 方 调整 格式 所 震 的 字 节 顺序 转换 的 平均 数 Gen: 两 

个 端点 都 使 用 高 端 字 节 序 表示 法 的 概率 是 jr， 两 个 端点 都 使 用 不 同 字 节 顺序 的 概 康 是 2p(1 一 p)) 

描述 一 个 能 让 XML 文档 更 简短 且 更 有 效 的 XML 表示 形式 ， 

用 一 个 压缩 实用 程序 (如 compress, gzip 或 pkzip) 做 实验 。 你 可 以 获得 什么 样 的 压缩 率 ? TE AE Pe 

一 些 数 据 文件 ， 你 对 它 可 以 慕 得 5: 1 或 10: 1 的 压缩 率 ? 

假设 一 个 文件 包含 字母 a、b、c 和 d。 名 义 上 我 们 要 求 这 样 的 文件 中 的 每 个 字母 用 上 师 个 比特 储存 。 

Ca) 假设 字母 a 出现 的 概率 为 50%,b 出现 的 概率 为 30%、 而 < 和 d 出现 的 概率 均 为 10%。 给 出 一 
种 每 个 字母 为 2 比特 串 的 编码 ， 这 种 编码 提供 优化 的 压缩 。 (提示 : 对 a 使 用 1 个 比特 .) 

Cb) 你 提出 的 编码 方案 达到 的 压缩 比 是 多 少 ? (这 是 对 每 个 字母 达到 的 平均 压缩 比 ， 由 字母 的 频率 
加 权 -) 

Cc) 假设 字母 a 和 b 出 现 的 频率 均 为 40 名 ,fc 出 现 的 频率 为 15 名， d 出现 的 频率 为 了 各 ， 重 做 此 题 

假设 有 一 个 压缩 函数 c， 将 一 个 比特 串 ; 压缩 后 为 比特 串 c (3)， 

Ca) 说 明 对 任何 整数 N， 一定 有 一 个 长 度 为 N 的 串 s， 满足 length SN. He RE i. RE FY BE 
无 效 的 压缩 。 

(b) 压缩 一 些 已 经 压缩 过 的 文件 (试用 同样 的 实用 程序 依次 压缩 几 次 )。 文件 的 长 度 发 生 什么 变化 ? 

(c) 已 知 如 (a) 所 述 的 压缩 函数 c， 给 出 一 个 函数 c ， 对 所 有 比特 串 ys. length! (63) 所 min(lengtht 
(5)) ,length(s)) 十 1]， 就 是 说 ,在 最 坏 的 情况 下 ， 用 < 上 压缩 只 使 长 度 扩 大 1 比特 

给 出 一 个 行程 编码 算法 ， 要 求 只 用 单个 字 节 表示 不 重复 的 符号 。 

在 一 个 给 定 的 文本 文件 中 ， 编 写 一 个 程序 构造 一 部 包含 所 有 “ 词 ” 的 字典 。 词 定义 为 连续 非 空格 串 

我 们 可 以 通过 把 每 个 词 表 示 为 词典 的 索引 来 压缩 该 文件 (忽略 空格 信息 的 丢失 )。 下 载 包 含 [Pos81_ 

的 rfc791. txt 文件 ， 并 在 其 上 运行 你 的 程序 。 首 先 假 设 每 个 间 用 12 比特 编码 (这 应 该 是 足够 的 )、 

而 128 个 最 常用 的 词 用 8 比特 编码 .其 余 的 词 用 13 比特 编码 . 给 出 压缩 后 文件 的 大 小 . 假设 字典 本 

身 能 按 每 个 词 占 length (word) + 1 字 节 存储 。 

除了 丢弃 第 二 个 变量 (j 或 y) 和 第 二 个 余弦 内 子 外 . 一 维 离散 余弦 变换 (DCT) 类 似 于 二 维 变换 . 

我 们 也 丢弃 DCT Wi EMA TTS AB. MW N=8 实现 DCT 变换 和 逆 变 换 (用 电子 表格 完成 . 虽然 用 支 

持 矩 阵 的 语言 可 能 更 好 ) 并 回答 下 列 问题 : 

(a) 如 果 输 入 数据 为 (1,2,3,5,5,3.2.1). 哪些 DCT 系数 接近 07 

Ch) 如 果 输 入 数据 为 1.2.3.4,5.6.7,8)， 我 们 必须 保留 多 少 个 DCT 系数 ， 才 能 使 得 DCT ii 48 fe 
后 的 值 都 在 其 原 值 的 1% 或 10% 以 内 ”假设 丢弃 的 DCT 系数 用 0 (GR, 

(c) 令 疝 是 在 :为 1 和 了 时 为 0 的 输入 序列 ， 其 中 1 近 , 过 8， 天 让 我 们 对 应 用 DOT. & 
个 系数 为 0， 然 后 对 其 应 用 DCT 道 变换 ,结果 中 哪个 :位 置 引 起 的 错误 最 小 ”哪个 7 位置 引起 的 
错误 最 大 ?其 中 I<, 


最 后 z 


.比较 JPEG 格式 的 全 白 图 像 与 相同 大 小 的 普通 照片 和 图像 。 在 JPEG 压缩 过 程 的 哪个 阶段 或 哪些 阶段 ， 


制作 白 图 像 会 小 于 普通 照片 ? 

对 下 面 的 三 道 习 题 ， 可 以 用 实用 程序 cjpeg 和 jpeg， 并 可 从 http://www. ijg. org/ 站 点 下 载 。 也 
可 以 使 用 其 他 JPEG 转换 程序 。 对 于 手工 建立 和 检验 图 像 文 件 ， 推荐 pgm 可 移动 灰 度 格式 ， 参见 
Unix pgm(5)/ppm(5) 手册 。 


5. 建立 一 个 由 8X8 网 格 、 首 列 为 垂直 黑 线 组 成 的 灰 度 图 像 。 压缩 成 JPEG 格式 后 青 解压 缩 。 与 默认 质 


量 设置 下 产生 的 字 节 相差 多 少 ? 如 何 描述 引入 的 视觉 俩 差 ? 什么 伴 的 质量 设置 恰好 能 恢复 文件 ? 
建立 一 个 由 有 64 个 ASCH 字符 的 文本 串 组 成 的 8X8 灰 度 图 像 。 只 使 用 小 写字 母 ， 不 用 空格 sit 点 
压缩 成 JPEG 格式 然后 再 解压 缩 。 其 结果 作为 文本 可 识别 的 程度 如 何 ? 为 什么 加 入 空格 事情 会 变 得 更 


30. 


al. 


32- 


St F) 3p TE 333 





E? 若 质量 设置 为 100， 这 会 是 一 个 合理 的 文本 压缩 方法 吗 ? 


. 使 用 浮 点 算术 ， 写 一 个 程序 实现 正 向 DCT 和 反 向 DCT。 在 一 个 样本 图 像 上 运行 该 程序 。 由 于 DCT 


是 无 损 的 ,因此 由 程序 箱 出 的 网 像 应 该 与 输入 轿 像 相 匹 配 。 修 改 你 的 程序 使 其 将 一 些 高 频 分 基 变 为 
0， 并 查看 输出 图 像 会 受到 什么 影响 。 这 与 JPEG 的 做 法 有 何 区 别 ? 


28. 用 各 个 pixel(x.y) 的 平均 值 来 表示 DCTOO. 0), 
29. 考虑 一 下 人 们 希望 视频 标准 能 够 提供 哪些 合理 的 功能 ， 例 如 快 进 、 编 辑 能 力 、 随 机 存 取 等 。( 参 见 本 


章 “ 扩 展 阅 读 ” 中 给 出 的 Le Gall 的 论文 “MPEG; A video compression standard for multimedia appli- 
cations”。) 根据 这 些 性 质 解 释 MPEG 的 设计 ， 

对 MPEG 流 ， 假 设 你 希望 实现 快 进 和 快 退 。 假 如 限制 你 的 装置 只 显示 工 帧 ， 运 行 过程 中 会 出 现 什么 
问题 ?如 果 不 做 限制 ， 显 示 快 进 序列 中 一 个 给 定 的 帧 ， 在 原 序 列 中 你 必须 解码 的 最 大 帧 数 是 多 少 ? 
使 用 mpeg_play 播放 一 个 MPEG 编码 的 视频 。 试 验 各 选项 ， 特 别 是 -nob 和 -nop， 它 们 分 别 用 于 省 略 
流 中 的 也 帧 和 P 帧 .省略 这 些 帧 会 出 现 什么 可 视 效 果 ? 


. mpeg_stat 程序 可 以 用 来 显示 视频 流 的 统计 数据 。 对 多 个 流 使 用 该 程序 ， 确 定 


(a) IT、B 和 PP 帧 的 数量 和 顺序 。 

(b) 整个 视频 的 平均 压缩 率 。 

(c) 每 种 帧 的 平均 压缩 率 

设想 我 们 有 一 个 在 黑 背景 上 两 个 白 点 以 均匀 速率 相向 移动 的 视频 。 我 们 借助 MPEG 对 其 进行 编码 。 
在 一 个 工 帧 中 两 个 点 分 别 为 100 像素 ， 在 下 一 个 1 帧 中 它们 已 合并 了 。 最 终 合 并 的 点 刚好 位 于 16X 16 
宏 块 的 中 心 ， 

Ca) 描述 如 何 对 插入 的 B 帧 (或 P 帧 ) 的 站 分 基 进 行 最 住 编 码 。 

(b) 假设 点 是 彩色 的 ， 而且 当 点 移动 时 色彩 缓慢 变化 。 描 述 U 和 V 可 能 如 何 编码 。 
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将 上 帝 的 保护 与 人 的 脆弱 性 相 结 合 才 是 难 能 之 举 . 
Æ 内 加 


问题 : 安全 攻击 


计算 机 网 络 是 一 种 典型 的 共享 资源 ， 被 很 多 代表 不 同 利益 的 应 用 程序 所 使 用 。 因特网 
就 是 一 种 被 广泛 共享 的 资源 ， 相 互 竞 争 的 商业 对 手 、 相 互 敌对 的 政府 以 及 投机 的 犯罪 分 子 
都 在 使 用 它 。 如 果 不 采 用 安全 措施 ， 攻 击 者 可 能 会 危及 网 络 会 话 或 分 布 式 应 用 的 安全 . 

考虑 一 些 对 安全 使 用 网 络 (如 万 维 网 ) 的 威胁 。 假 设 你 是 一 个 使 用 信用 卡 从 网 站 订购 
商品 的 顾客 。 一 个 很 明显 的 威胁 是 攻击 者 可 能 会 穷 听 网 络 通信 ,， 读 取消 息 来 获得 你 的 信和 月 
卡 信息 。 那 么 如 何 实 现 这 种 穷 听 呢 ?” 在 广播 网 络 ( 如 以 太 网 ) 上 实现 穷 听 是 很 容易 的 T 
为 任何 节点 都 可 以 通过 配置 来 接收 网 络 上 的 所 有 流量 。 对 于 无 线 通 信 ， 则 可 以 在 没有 物理 
连接 的 情况 下 实现 窃听 。 更 复杂 的 窃听 方法 包括 搭 线 穷 听 和 在 任何 相关 节点 上 安装 间谍 软 
件 。 只 有 在 非常 极端 的 情况 下 (如 国家 安全 ) 才 会 采用 严格 的 措施 来 阻止 穷 听 ， 而 因特网 
则 不 属于 这 种 情况 。 但 是 ， 通 过 加 密 消 息 来 防止 攻击 者 读 取消 息 的 内 容 是 可 能 而 且 可 行 
的 。 采 取 了 这 种 措施 的 协议 称 为 提供 了 机 密 性 〈confidentiality)。 更 深 一 步 ， 隐藏 通信 的 
数量 和 目的 地 称 为 流量 机 密 性 traffic confidentiality) 因为 有 时 仅仅 知道 向 某 个 地 址 
发 送 的 通信 量 对 攻击 者 来 说 也 是 有 帮助 的 。 

对 于 网 站 的 顾客 来 说 ， 即 使 保证 了 保密 性 ， 仍然 存在 其 他 威胁 。 攻 击 者 虽然 不 能 读 取 
加 密 消 息 的 内 容 ， 但 仍 能 修改 其 中 的 一 些 位 以 便 构成 男 一 个 有 效 的 订单 ， 如 完全 不 同 的 商 
品 或 1 000 个 同样 的 商品 。 有 些 技术 虽然 不 能 阻止 这 种 得 改 , 但 可 以 检测 到 得 改 。 能 够 检 
测算 改 的 协议 称 为 提供 了 数据 完整 性 (data integrity) 。 攻 击 者 也 可 能 利用 重 放 攻击 (re 
play attack) 把 你 的 消息 再 重新 发 送 一 人 毅 。 对 于 网 站 来 说 ， 好 像 是 你 又 订购 了 一 份 与 第 一 
次 相同 的 商品 。 能 够 检测 重 放 攻 击 的 协议 称 为 提供 了 原始 性 (originality)。 然 而 Etn YE 
并 不 能 阻止 攻击 者 拦截 你 的 订单 ， 并且 等 待 一 段 时 间 后 再 传输 该 订单 一 一 实际 上 是 推迟 你 
的 订单 。 攻 击 者 可 以 安排 在 你 外 出 度假 的 时 候 把 商品 送 到 你 家 门口 ， 此 时 他 就 可 以 很 容易 
地 窃取 你 的 商品 。 能 够 检测 这 种 延迟 攻击 的 协议 称 为 提供 了 实效 性 timeliness)。 数 据 完 
整 性 、 原 始 性 和 实效 性 被 看 作 是 一 般 属 性 完整 性 Cintergrity) 的 不 同 aie 

对 顾客 的 男 一 个 威胁 是 在 不 知情 的 情况 下 被 重 定向 到 一 个 错误 的 网 站 。 这 可 能 是 由 于 
域名 系统 (DNS) 攻击 造成 的 ， 即 错误 信息 被 输入 到 域名 服务 器 或 顾客 计算 机 的 域名 服务 
缓存 中 。 这 会 导致 将 正确 的 URL 翻译 成 错误 的 IP 地 址 错误 网 站 的 地 址 。 能 够 确保 你 
的 确 在 与 一 个 你 认为 正在 与 之 通话 的 人 通话 的 协议 称 为 提供 了 认证 (authentication)。 认 
证 与 完整 性 是 紧密 联系 的 。 因 为 如 果 消 息 已 经 不 是 原始 消息 了 ,那么 确认 该 消息 来 利 特 定 
的 人 是 没有 意义 的 。 

网 站 的 拥有 者 也 可 能 被 攻击 。 有 些 网 站 的 外 观 已 经 被 破坏 ， 网 站 文件 在 未 授权 的 情况 下 





被 远程 访问 并 修改 。 这 就 是 访问 控制 (access control) 问题 : 强制 实施 用 于 规定 谁 可 以 做 什 
么 的 规则 。 网 站 也 会 受到 拒绝 服务 (Denial of Service, DoS) 攻击 。 网 站 被 攻击 期 间 ， 顾 客 
不 能 访问 网 站 ， 因 为 网 站 已 经 被 假 请 求 洽 没 。 确 保 一 定 程 度 的 访问 称 为 可 用 性 (availability)。 

除了 这 些 问 题 ， 因 特 网 曾 被 大 量 用 于 部 署 严 意 代码 ， 它们 利用 了 端 系 统 中 的 漏洞 。 闯 
& (worm) 是 在 网 络 上 自我 复制 的 代码 段 ， 它 已 经 出 现 了 几 十 年 ， 并 在 继续 制造 麻烦 ， 
与 之 相关 的 病毒 (virus) 也 是 这 样 ， 病 毒 是 通过 传输 被 感染 的 文件 来 传播 的 。 被 感染 的 计 
算 机 就 可 以 被 部 署 成 僵尸 网 络 ， 实 施 进一步 的 破坏 ， 如 发 起 DoS 攻击 。 

虽然 因特网 提供 元 余 来 应 对 诸如 链 路 或 路 由 器 损坏 之 类 的 问题 ,但 它 的 原始 设计 中 并 
没有 提供 我 们 所 讨论 的 安全 性 。 因 特 网 安全 机 制 实质 上 是 补丁 。 如 果真 的 要 对 因特网 进行 
全 面 的 重新 设计 ， 那 么 集成 安全 性 将 会 是 最 重要 的 推动 因素 。 这 可 能 使 得 本 章 更 加 切 题 。 

现在 有 很 多 用 于 保护 联网 系统 安全 的 工具 ， 从 各 种 密码 术 到 专用 设备 ， 如 防火 墙 。 本 
章 将 介绍 这 些 工具 ， 并 重点 关注 使 用 密码 学 方法 来 增强 网 络 安全 性 。 增 强 网 络 安全 性 仍然 
是 一 个 快速 变化 且 需 要 大 量 研 究 工 作 的 领域 。 


8.1 密码 基础 

我 们 将 一 步 一 步 地 介绍 以 密码 学 为 基础 的 安全 概念 。 第 一 步 是 密码 算法 一 一 密码 和 窗 
码 散 列 一 一 在 本 节 中 介绍 。 密 人 码 算法 本 身 不 能 作为 安全 解决 方案 ,而 是 构建 安全 方案 的 基 
fii, BA (key) 是 密码 算法 的 参数 ，8. 2 节 人 解决 分 发 密 钥 的 问题 。 下 一 步 ( 见 8.3 节 )， 
我 们 将 描述 如 何 将 密码 模块 集成 到 协议 中 以 便 为 拥有 正确 密 钥 的 参与 者 提供 安全 的 通信 ，。 
最 后 ，8.4 节 分 析 了 几 个 当前 正在 使 用 的 完整 的 安全 协议 和 系统 。 
8.1.1 密码 原理 

加 密 对 消息 作 变 换 ， 使 得 任何 不 知道 如 何 做 逆 变 换 的 人 都 不 能 理解 该 消息 。 发 送 方 把 
加 密 (encryption) 函数 应 用 于 原始 明文 (plaintext) 消息 ,使 其 变 为 密 文 (ciphertext) 
消息 .再 发 送 到 网 络 上 ， 如 图 8-1 所 示 。 接 收 方 应 用 一 个 秘密 的 解密 (decryption) K 
数 一 一 加 密 函 数 的 逆 函 数 - 恢复 出 原始 明文 。 如 果 窃 听 者 不 知道 解密 函数 ， 那 么 他 就 不 
能 理解 网 络 中 传输 的 密 文 。 由 加 密 函 数 及 相应 的 解密 函数 所 表示 的 转换 称 为 密码 Cipher), 
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密码 学 家 最 早 在 1883 Emite T ERII, DE MER eK BC KL — BGA (key) 
KARO IF AL eK OMIA NY PAZ IE RA RHA TR A. 针对 给 定 明文 消 息 所 产生 
的 密 文 依赖 于 加 密 算 法 和 密 钥 。 采 用 该 原理 的 一 个 原因 是 .如 果 你 依赖 于 密码 算法 的 保 
密 ， 那么 当 你 认为 它 不 青 保密 时 ， 就 必须 放弃 这 个 算法 (而 不 光 是 密 钥 )。 这 意味 着 要 频 
繁 地 修改 密码 算法 ， 而 开发 一 个 新 的 算法 要 做 大 量 工 作 ， 因 此 这 样 做 是 有 问题 的 ,而且 ， 
想 知 道 某 个 密码 算法 是 否 有 效 的 最 好 的 方法 是 长 时 间 使 用 它 一 一 如 果 没 有 人 能 破解 它 ， 它 
可 能 就 是 安全 的 。( 幸 好 ， 许 多 人 试图 破解 算法 ， 并 且 当 他 们 成 功 时 会 让 尽量 多 的 人 知道 ， 
所 以 一 般 来 说 ， 没 有 消息 就 是 好 消息 .) 因此 ,开发 一 个 新 的 算法 会 有 相当 大 的 开销 和 风 
险 。 最 后 ， 用 密 钥 将 密码 算法 参数 化 实际 上 为 我 们 提供 了 一 个 非常 大 的 密码 算法 族 ， 更 换 
密 钥 实质 上 是 更 换 密 码 算 法 ， 从 而 限制 密码 分 析 者 (cryptanalyst， 即 密码 破译 者 ) 能 用 
于 破译 密 钥 /密码 算法 的 数据 总 量 ， 以 及 成 功 破译 后 能 够 解密 的 数据 总 量 。 

对 加 密 算 法 的 基本 需求 是 : 它 能 用 一 种 方法 把 明文 转换 成 密 文 ， 只 有 指定 的 接收 者 一 一 
即 解 密 密 钥 的 持 有 者 一 一 才能 把 密 文 恢复 成 明文 。 这 意味 着 ,没有 解密 密 钥 者 的 人 无 法 解 
密 消息 。 

当 一 个 潜在 攻击 者 接收 到 一 段 密 文 时 ， 他 可 能 知道 更 多 的 信息 ， 而 不 仅仅 是 密 文本 
身 。 认 识 到 这 一 点 很 重要 。 例 如 ， 他 们 可 能 知道 明文 是 用 英文 写 的 ， 这 意味 着 在 明文 中 字 
母 e 会 比 其 他 字母 出 现 得 更 频繁 ， 其 他 一 些 字 母 和 常见 字母 组 合 出 现 的 频率 同样 可 以 预 
测 。 这 个 信息 可 以 极 大 地 简化 寻找 密 钥 的 工作 。 同样 ， 他 可 能 知道 消息 的 一 些 有 关内 容 、 
比如 , “login” 一 词 很 可 能 出 现在 一 个 远程 登录 会 话 的 开始 。 这 可 能 引起 一 次 已 知 明文 
攻击 是 选择 明文 (chosen plaintext) 攻击 .这 种 攻击 向 发 送 方 加 入 一 些 有 可 能 会 被 传送 的 
言 息 ， 例 如 ， 在 战 时 就 发 生 过 这 样 的 事情 ，。 

因此 ， 最 好 的 密码 算法 可 以 防止 攻击 者 在 同时 知道 明文 和 密 文 时 推测 出 密 钥 。 这 使 得 
攻击 者 除了 测试 所 有 可 能 的 密 钥 〈 穷 举 , “ 蛮 力 ”搜索 ) 外 别 无 选择 。 如 果 密 钥 为 n 位， 
那么 有 2 个 可 能 的 密 钥 (n 位 中 的 每 一 位 可 以 是 0 或 1)。 攻 击 者 可 能 非常 幸运 ， 能 马上 测 
试 到 正确 的 密 钥 ,也 可 能 非常 不 走运 ,需要 测试 所 有 2" 个 可 能 的 值 。 发 现 正 确 密 钥 值 的 平 
均 猜 测 次 数 介 于 这 两 种 极端 情况 之 间 ， 即 2*/2。 可 以 通过 选择 足够 大 的 密 钥 空间 以 及 使 检 
测 密 钥 的 运算 的 代价 足够 高 ， 使 得 这 种 搜索 在 计算 上 不 可 行 。 但 由 于 计算 速度 不 断 提高 ， 
使 得 以 前 不 可 行 的 计算 变 得 可 行 ， 因 此 这 种 措施 也 很 困难 。 另 外 .虽然 我 们 关注 数据 在 网 
络 上 传输 时 的 安全 ， 即 数据 只 在 一 个 较 短 的 时 间 间 隔 内 可 能 受到 威胁 。 一 般 来 说 ， 人 们 应 
该 考虑 对 于 需要 在 文档 中 保存 几 十 年 的 数据 可 能 受到 的 威胁 。 这 需要 使 用 相当 大 的 密 钥 。 
另 一 方面 ， 大 密 钥 也 使 得 加 密 和 解密 更 慢 。 

大 部 分 密码 算法 是 分 组 密码 算法 (block cipher)， 它 们 被 定义 为 将 固定 长 度 的 明文 分 
组 作为 输入 ， 典 型 值 为 64 位 或 128 位 。 用 分 组 密码 算法 独立 地 加 密 每 一 个 分 组 一 一 常 称 
为 电码 本 模式 (Electronic Codebook (ECB) mode) 加 密 其 缺点 是 给 定 的 明文 分 组 总 
是 产生 相同 的 密 文 分 组 。 因 此 从 密 文 中 重复 重 现 的 分 组 能 够 识别 出 明文 中 的 重复 分 组 ， 这 
使 得 密码 分 析 者 更 容易 破译 密码 。 

为 了 避免 上 述 问题 ， 分 组 密码 通常 使 分 组 的 密 文 根 据 上 下 文 的 不 同 而 变化 ， 从 而 增加 
强度 。 增 强 分 组 密码 强度 的 方法 称 为 操作 模式 (modes of operation) 。 一 种 常用 的 操作 模 
式 是 密码 分 组 链 (Cipher Block Chaining, CBC) feist, 在 CBC 模式 下 ， 每 一 个 明文 分 组 
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在 被 加 密 前 都 与 前 一 分 组 的 密 文 异 或 。 结 果 是 每 一 个 密 文 分 组 都 部 分 地 依赖 前 面 的 所 有 分 
组 〈 即 依赖 于 上 下 文 )。 因 为 第 一 个 明文 分 组 前 没有 
其 他 分 组 ， 因 此 与 一 个 随机 数 异 或 。 这 个 随机 数 称 





明文 块 3 


”明文 块 2 
为 初始 化 向 量 (Initialization Vector，IV)， 与 一 系 HIR 
列 密 文 分 组 一 起 发 送 以 便 明文 的 第 一 分 组 能 被 解密 。 o 


图 8-2 说 明了 这 种 模式 。 另 一 种 操作 模式 是 计数 器 模 
A (counter mode),， 计数 器 的 连续 的 值 (如 1，2， 


3，…) 被 结合 到 连续 明文 分 组 的 加 密 过 程 中 。 | 
( x ) 一 ~ 加 密 函 数 一 > 密 文 块 
8.1.2 对称 密 钥 密码 7 i | 


在 对 称 密 钥 密码 中 ， 两 个 参与 者 5 共享 一 个 秘密 
密 钥 。 换 句 话说 ， 如 果 用 一 个 特定 的 密 钥 加 密 了 一 
条 消息 ， 也 必须 要 使 用 相同 的 密 钥 来 解密 该 消息 。 














初始 化 向 量 


( 仅 用 于 块 0) 
如 果 图 8-1 描述 的 是 一 个 对 称 密 钥 密 码 ， 那 么 加 密 和 a MRE UES 
解密 密 钥 应 该 是 相同 的 。 对 称 密 钥 密码 也 称 为 秘密 Oe Senn ere 


密 钥 密码 .因为 共享 的 密 钥 一 定 是 只 有 参与 者 才 知 道 。 (我 们 将 在 后 面 看 到 替代 方案 一 一 
ZA REA.) 

美国 国家 标准 与 技术 研究 所 (NIST) 已 经 颁布 了 一 系列 对 称 密 钥 密 码 标准 。 数 据 加 
密 标 准 (Data Encryption Standard. DES) 是 其 中 的 第 一 个 ， 它 经 受 住 了 时 间 的 考验 ， 还 
没有 发 现 比 蛮 力 攻击 更 好 的 密码 分 析 攻 击 。 然 而 ， 蛮 力 攻击 的 速度 已 经 变 得 很 快 。DES 的 
RAT 56 个 独立 位 〈 虽 然 密 钥 的 总 长 度 是 64 位 ， 但 每 一 个 字 节 的 最 后 一 位 是 奇偶 校 验 
位 ). 这 对 于 目前 的 处 理 器 来 说 太 小 了 。 正 如 前 面 提 到 的 ， 平均 需要 搜索 2 个 可 能 的 密 钥 
空间 的 一 半 来 找到 正确 的 密 钵 ， 即 25 一 3.6X105 个 密 钥 。 这 看 起 来 好 像 很 多 ， 但 这 种 搜 
索 可 以 高 度 并 行 化 ， 因 此 将 可 以 控制 的 尽 可 能 多 的 计算 机 都 用 于 执行 该 任务 是 可 能 的 ， 而 
现在 很 容易 找到 数 千 台 计算 机 (例如 ，Amazon. com 可 以 以 每 小 时 几 美 分 的 价格 向 你 出 租 
计算 机 )。 到 20 世纪 90 年 代 后 期 ， 在 几 小 时 内 搜索 到 DES 密 钥 已 成 为 可 能 。 因 此 ，NIST 
在 1999 年 更 新 了 DES 标准， 指出 DES 应 该 只 用 于 遗留 系统 中 。 

NIST 还 标准 化 了 三 重 DES (Triple DES，3DES)， 它 实际 上 通过 增加 密 钥 长 度 来 有 
效 地 抵抗 对 DES 的 密码 分 析 。3DES 密 钥 有 168 (=3 56) 个 独立 的 位 ， 被 用 作 三 个 
DES 帘 钥 ， 分 别称 为 DES-keyl, DES-key2 和 DES-key3。 用 3DES 加 密 明 文 分 组 时 ， 先 
用 DES-keyl 对 该 分 组 做 DES 加 密 ， 然 后 用 DES-key2 对 结果 分 组 做 DES 解密 ， 最 后 用 
DES-key3 对 上 一 步 的 结果 做 DES 加 密 。 解 密 包 括 用 DES-key3 解密 ， 然 后 用 DES-key2 加 
密 ， 最 后 用 DES-key] 解密 ,号 

虽然 3DES 解决 了 DES 的 密 钥 长 度 问 题 ， 但 它 继承 了 其 他 一 些 不 足 。DES/3DES 的 
软件 实现 较 慢 ， 原 因 是 IBM 最 初 设计 DES 时 是 为 了 用 硬件 实现 。 男 外 ，DES/3DES 使 用 





> ”我们 使 用 术语 参与 者 (participant) 代表 参与 一 个 安全 通信 的 实体 ， 因 为 我 们 曾 在 整 本 书 中 使 用 该 术语 来 表示 
-个 信道 的 两 端 。 在 安全 领域 ， 他 们 一 般 称 作 负 责 人 (principal) 

所 3DES 加 密 时 使 用 以 DES-key2 为 密 钥 的 DES 解密 的 原因 是 为 了 与 遗留 DES 系统 互 操 作 。 如 果 一 个 踪 留 DES 
系统 使 用 单个 密 钥 ， 那 么 一 个 3DES 系统 将 于 个 密 钥 用 作 DES-key1 、DES-key2 和 DES-key3， 就 能 够 实现 相 
同 的 加 密 功 能 ， 在 前 两 步 ， 我 们 用 相同 的 密 铀 先 加 密 上 解密， 能 够 产生 原始 明文 ， 然 后 我 们 再 加 密 。 
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64 位 的 分 组 大 小 ， 而 更 大 的 分 组 会 更 高 效 且 更 安全 . 

3DES 正在 被 NIST 在 2001 年 发 布 的 高 级 加 密 标 准 (Advanced Encryption Standard, 
AES) 所 替代 。 该 标准 所 选择 的 密码 算法 (经 过 一 些 较 小 的 改动 ) 最 初 根据 发 明 者 的 名 字 
Daemen 和 Rijmen 而 命名 为 Rijndael， 发 音 类 似 于 “Rhine Dahl”, AES 支持 128 位 、192 
位 或 256 位 的 密 钥 长 度 ， 分 组 长 度 为 128 fiz. AES 用 硬件 和 软件 都 可 以 快速 实现 。 它 不 需 
要 太 多 内 存 ， 因 此 适用 于 小 型 移动 设备 。AES 具有 一 些 数学 上 已 证 明 的 安全 属性 ， 并 且 
截至 到 撰写 本 书 时 ， 还 没有 已 知 的 成 功 攻 击 ,° 


8.1.3 AAEE 

对 称 密码 的 一 个 替代 方案 是 非 对 称 或 公 钥 密码 。 公 钥 密码 使 用 一 对 相关 的 密 钥 ， 一 个 
用 于 加 密 ， 另 一 个 用 于 解密 ， 而 不 是 在 两 个 参与 者 之 间 共 享 一 个 密 钥 。 这 对 密 钥 只 属于 一 
个 参与 方 。 密 钥 拥有 者 要 保密 解密 密 钥 ， 因 此 只 有 密 钥 拥有 者 能 够 解密 消息 ， 这 个 密 钥 被 
称 为 私 钥 (private key) 。 密 钥 拥有 者 将 加 密 密 钥 公 开 ， 因 此 任何 人 都 可 以 为 密 钥 拥有 者 
加 密 消 息 ， 这 个 密 钥 被 称 为 公 钥 (public key)。 显 然 ， 为 了 使 该 方案 奏效 ， 必 须 保证 不 能 
从 公 钥 推算 出 私 钥 。 因 此 ， 一 个 参与 方 能 够 得 到 公 钥 并 发 送 加 密 后 的 消息 给 公 钥 的 拥有 
者 ， 并 且 只 有 私 钥 的 拥有 者 可 以 解密 消息 。 图 8-3 描述 了 这 种 情况 
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因为 上 述 方案 不 太 直观 ， 因 此 我 们 强调 公共 的 加 密 密 钥 对 解密 消息 是 没有 用 的 一 一 如 
果 你 没有 私有 的 解密 密 钥 ， 你 甚至 不 能 解密 你 自己 加 密 的 消息 。 如 果 你 将 密 钥 看 作 在 参与 
者 之 间 定 义 一 个 通信 信道 ,那么 公 钥 密码 和 对 称 密码 的 另 一 个 区 别 是 信道 的 拓扑 。 对 称 密 
码 的 密 钥 提供 的 是 参与 者 之 间 的 双向 信道 ， 每 一 个 参与 者 都 有 相同 的 〈 对 称 的 ) 密 钥 ， 任 
何 一 方 都 能 在 任何 一 个 方向 上 加 密 或 解密 消息 。 与 之 相 比 ， 公 钥 / 私 钥 对 提供 了 一 个 从 有 
公 钼 的 每 个 人 到 “〈 唯 一 的 ) 私 钥 拥有 者 之 间 的 多 对 一 的 单 向 信道 ， 如 图 8-3 所 示 。 


© 任何 比 纯粹 的 讲 力 付出 更 小 的 计算 开销 而 能 够 发 现 明 文 的 行为 在 技术 上 都 被 归 类 成 攻击 ， 现在 已 经 发 表 了 一 
些 针 对 AES 的 攻击 。 虽 然 这 些 攻 击 比 讲 力 好 ， 但 它们 的 计算 量 仍然 很 大 ， 
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公 钥 密码 的 另 一 个 重要 特性 是 私有 “解密 ” 密 钥 可 以 与 加 密 算法 一 起 使 用 来 加 密 消 

， 因 此 这 些 消息 只 能 用 公共 的 “加 密 ” 密 钥 来 解密 。 这 个 特性 显然 对 机 密 性 不 起 作用 ， 
因 为 有 公 钥 的 任何 人 都 能 够 解密 这 样 的 消息 . (确实 ， 对 于 两 个 参与 者 之 间 的 双向 机 密 性 ， 
每 一 个 参与 者 都 需要 自己 的 密 钥 对 ， 并 且 每 一 方 都 用 另 一 方 的 公 钥 加 密 消 息 。)。 然 而 ， 这 
个 特性 对 于 认证 有 用 ， 因 为 它 告 诉 消息 的 接收 者 这 样 的 消息 只 能 由 密 钥 的 拥有 者 创建 A 
关 假 设 会 在 后 面 讨 论 ) 。 图 8-4 描述 了 这 利 sah 从 图 中 可 以 清楚 地 看 到 ,任何 有 公 钥 的 
人 人 能够 解密 被 加 密 的 消息 ， 假 设 解密 后 的 结果 与 期 望 的 结果 匹配 ， 那 么 可 以 断定 加 密 是 用 
私 钥 完成 的 。 这 种 操作 如 何 用 于 提供 a 3 节 的 主题 。 正 如 我 们 将 要 看 到 的 ， 公 钥 密 
码 主要 用 于 认证 和 秘密 地 分 发 对 称 密 钥 ， 而 消息 的 保密 则 依赖 对 称 密码 。 
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图 8-4 ”使 用 公 钥 的 认证 


一 段 有 趣 的 历史 : 公 钥 密 但 的 概念 最 早 由 Diffie 和 Hellman 在 1976 年 发 表 。 然 而 ， 
有 资料 证 明 英 国 的 通信 电子 安全 小 组 CCommunications-Electronics Security Group) 在 
1970 年 就 发 现 了 公 角 密码， 而 美国 国家 安全 局 (NSA) 则 声明 他 们 在 20 世纪 60 年 代 中 
期 就 发 现 了 。 

最 著名 的 公 钥 密码 是 RSA， 根 据 其 发 明 者 Rivest, Shamir 和 Adleman 的 名 字 命名 。 
RSA 依赖 于 大 数 因 子 分 解 的 极 大 计算 开销 。 找 到 分 解 大 数 的 有 效 方法 是 在 1978 年 RSA 出 
现 以 前 的 很 长 时 间 内 一 直 没 有 被 数学 家 成 功 解决 的 问题 ， 因 此 RSA 对 密码 分 析 者 的 抵抗 
力 进 一 步 增强 了 人 们 对 其 安全 性 的 信心 。 不 幸 的 是 ，RSA 需要 相对 较 大 的 密 钥 来 保证 安 
全 ， 至 少 1 024 fir. 这 比 对 称 密码 的 密 钥 要 大 ， 因 为 通过 分 解 产 生 密 钥 对 的 大 数 来 破解 
RSA 比 通过 穷 举 所 有 密 钥 空间 来 破解 要 快 。 

2 ees Niners : IOamal。 就 像 RSA — FE, ElGamal 也 依赖 于 数学 问题 一 一 离散 对 
数 问题 ， 至 今 还 没有 找到 有 效 的 解决 方法 ， 并且 需 要 至 少 1 024 位 的 窗 钥 。 当 输入 是 椭圆 
曲线 时 ， 了 离散 对 数 问题 的 一 个 变形 ， 一 般 认 为 这 个 问题 更 难 计算 。 基 于 这 个 问题 
的 密码 机 制 称 为 椭圆 曲线 密码 (elliptic curve pp 

不 幸 的 是 ， 公 钥 密 码 比 对 称 密码 慢 好 几 个 数量 级 。 因 此 ， 对 称 密码 用 于 绝 大 部 分 加 
密 ， 而 公 钥 密码 则 用 于 认证 〈( 见 8. 1.4 节 ) 和 密 钥 建立 ( 见 8.2 节 )。 


8.1.4 认证 码 


加 密 本 身 不 能 提供 数据 完整 性 。 例 如 ,仅仅 随机 修改 一 条 密 文 消息 可 能 解密 出 看 上 去 
有 效 的 明文 ， 在 这 种 情况 下 ， 接 收 方 无 法 检测 到 算 改 。 加 BR 也 不 能 提供 认证 。 如 果 消 
县 已 经 不 是 原始 消息 了 ， 而 确认 该 消息 来 自 特定 的 人 是 没有 意义 的 。 从 某 种 程度 上 讲 ， 完 
整 性 和 认证 在 本 质 上 是 不 可 分 制 的 。 
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认证 码 (authenticator) 是 一 个 值 ， 包 仿 在 被 传 町 的 消息 中 ， 可 用 于 同时 验证 消息 的 
真实 性 和 数据 完整 性 。 我 们 将 在 8. 3 节 讨 论 认 证 码 在 协议 中 的 使 用 。 在 这 里 .我 们 侧重 于 
认证 码 的 生成 算法 。 

你 应 该 还 记得 我 们 在 2. 4. 3 节 讲 了 校 验 和 以 及 循环 元 余 校 验 (CRC) 在 原始 消 县 
上 添加 一 些 信息 并 一 起 发 送出 去 是 检测 消息 因 比 特 差错 而 被 无 意 中 修 改 的 方法 。 类 似 
的 概念 也 适用 于 认证 码 ， 对 于 某 些 人 故意 破坏 消息 而 不 想 被 检测 到 的 情况 增加 了 挑战 。 为 
了 支持 认证 ， 认 证 码 包 含 一 些 证 据 来 证 明 创建 该 认证 码 的 人 知道 一 个 只 有 所 声称 的 消息 发 
送 方 才 知 道 的 秘密 。 例 如 ， 这 个 秘密 可 能 是 一 个 密 钥 ,证据 则 是 用 这 个 密 钥 加 密 的 值 . 元 
余 信息 的 形式 与 秘密 证 据 的 形式 是 相关 的 。 我 们 会 讨论 几 种 可 行 的 结合 方式 。 

我 们 先 假设 原始 消息 不 需要 保密 一 一 被 传输 的 消息 由 原始 消息 明文 加 上 认证 人 码 组 成 
然后 ， 我 们 会 考虑 需要 保密 的 情况 。 

有 一 类 认证 码 将 加 密 与 密码 散 列 函数 (cryptographic hash function) 结合 。 密 码 散 列 
算法 被 当 作 公开 信息 ， 就 像 密 码 算 法 一 样 。 密 码 散 列 明 数 (也 称 为 密码 校 验 和 (crypto- 
graphic checksum)) 是 一 种 输出 有 关 消 息 的 足够 元 余 信 息 来 发 现任 何 复 改 的 困 数 . 就 像 校 
验 和 或 CRC 能 发 现 由 噪声 链 路 引起 的 比特 差错 ， 密码 校 验 用 于 发 现 攻击 者 的 蓄意 破坏 
它 输 出 的 值 称 为 消息 摘要 (message digest)， 就 像 传 统 校 验 和 一 样 . 被 追加 在 消息 后 。 不 
管 原始 消息 有 多 长 ,一 个 给 定 的 散 列 函数 产生 的 所 有 消息 摘要 都 县 有 相同 的 位 数 。 因 为 所 
有 可 能 的 输入 消息 空间 比 可 能 的 消息 摘要 空间 大 ， 就 会 出 现 不 同 输入 消息 产生 相同 消息 摘 
要 的 情况 ， 就 像 散 列表 中 的 碰撞 。 

通过 加 密 消息 摘要 能 够 创建 认证 码 。 接 收 方 计算 消息 明文 部 分 的 摘要 ， 并 与 解密 后 的 
消息 摘要 对 比 。 如 果 二 者 相等 ， 那 么 接收 方 可 以 断定 该 消息 的 确 来 自 所 声称 的 发 送 方 ( 因 
为 该 消息 一 定 曾 经 被 正确 的 密 钥 加 密 过 ) 并 且 没 有 被 算 改 。 攻 击 者 无 法 发 送 一 条 伪造 消息 
和 与 之 匹配 的 伪造 摘要 并 能 逃脱 检测 ， 因 为 他 没有 正确 加 密 伪造 摘要 所 需 的 密 铀 。 然 而 ， 
攻击 者 能 够 监听 得 到 原始 的 明文 消息 及 其 被 加 密 的 摘要 。 然 后 攻击 者 计算 原始 消息 的 摘要 
( 散 列 函数 是 公开 的 ) ， 并 产生 替换 消息 ， 从 中 寻找 具有 相同 消息 摘要 的 消息 。 如 果 找 到 这 
样 的 一 条 消息 ， 就 能 将 新 消息 与 昌 认 证 码 一 起 发 送 而 不 被 检测 到 。 因此 ， 要 保证 安全 性 ， 
就 要 求 散 列 函数 具有 单 向 性 (one-way): 攻击 者 找到 与 原始 消息 具有 相同 摘要 的 明文 消息 
在 计算 上 是 不 可 行 的 。 

对 于 能 够 满足 要 求 的 散 列 函数 ， 其 输出 必须 均匀 地 随机 分 布 。 例 如 ， 如 果 摘 要 长 度 为 
128 位 ， 并 且 随 机 分 布 ， 那 么 为 了 找到 与 给 定 消息 摘要 匹配 的 男 一 条 消息 . 平均 再 要 测试 
2127 条 消息 。 如 果 输 出 不 是 随机 分 布 的 一 一 即 某 些 输出 比 其 他 输出 更 有 可 能 一 一 那么 对 于 
某 些 消息 ， 更 容易 找到 具有 相同 摘要 的 另 一 条 消息 . 这 会 降低 该 算法 的 安全 性 。 如果 你 只 
是 试图 找到 碰撞 (collision) 一 一 产生 相同 摘要 的 两 条 消息 一 一 那么 你 平均 要 计算 2 条 消 
息 的 摘要 。 这 个 惊人 的 事实 正 是 “生日 攻击 ”的 基础 一 一 更 多 细节 请 参考 习题 。 

最 常用 的 密码 散 列 算法 包括 消息 摘要 5 (Message Digest 5，MD5) 和 安全 敬 列 函数 1 
(Secure Hash Algorithm 1, SHA-1). MD5 输出 128 位 的 摘要 ，SHA-1 输出 160 位 的 摘 
要 。 人 们 发 现 MD5 的 弱点 已 经 有 一 段 时 间 了 ,因此 建议 将 MD5 fem SHA-1。 就 在 最 近 .、 
研究 者 发 现 了 比 蛮 力 攻击 高 效 一 些 的 SHA-1 碰撞 发 现 技术 ， 但 该 技术 在 计算 上 还 不 可 行 
虽然 碰撞 攻击 (collision attack 一 一 以 发 现 磁 撞 为 基础 的 攻击 ) 不 像 原 像 攻击 (preimage 
attack 一 一 以 发 现 与 给 定 消息 磁 撞 的 另 一 条 消息 为 基础 的 攻击 ) 的 风险 大 ,但 部 是 严重 的 





脆弱 点 。NIST 已 提出 到 2010 年 停止 使 用 SHA-1， 鼓 励 使 用 由 SHA 的 四 种 变形 组 成 的 
SHA-2。 目 前 正在 上 演 设计 新 散 列 SHA-3 的 竞争 。 


在 生成 加 密 消 息 摘 要 时 ， 摘 要 的 加 密 可 以 使 用 对 称 密 钥 密码 或 公 钥 密码 。 如 果 使 用 公 
钥 密 码 ， 用 发 送 方 的 私 钥 加 密 〈 私 钥 一 般 被 认为 用 于 解密 )， 接 收 方 或 其 他 人 可 以 用 发 送 
方 的 公 钥 解密 摘要 。 


通过 公 钥 算法 用 私 钥 加 密 的 摘要 称 为 数字 签名 (digital signature)， 因 为 它 像 手写 签 
名 一 样 提供 了 不 可 否认 性 。 接 收 方 收 到 带 有 数字 签名 的 消息 后 ， 能 够 向 第 三 方 证 明 发 送 方 
的 确 发 送 了 该 消息 ， 因 为 第 三 方 能 够 使 用 发 送 方 的 公 钥 自己 做 验证 。 (用 对 称 密 钥 加 密 的 
摘要 不 具备 该 特性 ， 因 为 只 有 两 个 参与 者 知道 密 钥 ; 另外， 因为 两 个 参与 者 都 知道 密 钥 ， 
所 谓 的 接收 方 有 可 能 自己 创建 了 该 消息 )。 任 何 公 钥 密码 都 可 被 用 于 数字 签名 。 数 字 签 名 
标准 (Digital Signature Standard. DSS) 是 一 种 已 被 NIST 定义 为 标准 化 的 数字 签名 格 
式 。DSS 签名 可 以 使 用 三 种 公 钥 密码 中 的 任何 一 种 ， 一 种 基于 RSA， 男 一 种 基于 ElGam- 
al， 第 三 种 称 为 椭圆 曲线 数字 签名 算法 (Elliptic Curve Digital Signature Algorithm) 。 

另 一 类 认证 码 与 上 述 认 证 码 类 似 ， 但 不 加 密 散 列 值 ， 而 是 使 用 一 个 类 散 列 函数 ， 以 一 
个 秘密 值 (只 有 发 送 方 和 接收 方 知 道 ) 为 参数 ， 如 图 8-5 所 示 。 该 函数 输出 一 个 认证 码 ， 
称 为 消息 认证 码 (Message Authentication Code. MAC), Aik TH MAC 附加 到 明文 消息 
后 ， 接 收 方 用 明文 和 秘密 值 重 新 计算 MAC， 并 将 重 计算 的 MAC 与 接收 到 的 MAC 相 比 较 。 


”明文 ] O 秘密 值 | 


<>) 






散 列 算法 





| 将 MAC 附 加 到 消息 后 将 HMAC 附 加 到 消息 后 
a) 计算 MAC b) 计算 HMAC 
网 8-5 计算 MAC 与 HMAC 


MAC 的 一 种 常见 变形 是 对 明文 消息 和 秘密 值 的 串 接 应 用 密码 散 列 (如 MD5 或 SHA- 
1)， 如 图 8-5 所 示 。 所 得 到 的 摘要 称 为 散 列 的 消息 认证 码 (Hashed Message Authentica- 
tion Code，HMAC)， 因 为 其 本 质 上 是 MAC。 附 加 到 明文 消息 上 的 是 HMAC 而 不 是 秘密 
值 。 只 有 知道 秘密 值 的 接收 方才 能 够 计算 出 正确 的 HMAC， 并 与 接收 到 的 HMAC 比较 。 
如 果 不 是 因为 散 列 函数 具有 单 向 特性 ， 那 么 攻击 者 就 可 能 找到 产生 该 HMAC 的 输入 并 将 
它 与 明文 消息 相 比 较 以 便 确定 该 秘密 值 。 

到 目前 为 止 ， 我 们 假设 消息 是 不 保密 的 ， 因 此 原始 消息 可 以 以 明文 形式 传输 。 为 了 对 
带 有 认证 码 的 消息 提供 机 密 性 ， 只 要 加 密 整 个 消息 及 其 认证 码 一 一 MAC、HMAC 或 被 加 
密 的 摘要 就 足够 了 。 记 住 ， 在 实际 中 ， 机 密 性 是 用 对 称 密 钥 密码 实现 的 ， 因 为 它们 比 公 钥 
密码 快 得 多 。 此 外 ， 将 认证 人 码 包 含 在 加 密 过 程 中 而 增加 的 开销 很 小 ， 且 增强 了 安全 性 。 一 





种 常见 的 简化 方法 是 加 蜜 消息 及 其 《〈 原 始 ) 摘要 ， 这 样 摘要 只 需 加 密 一 次 ,在 这 种 情况 
下 ， 整 个 密 文 消息 被 当 作 认 证 码 。 

虽然 认证 码 看 上 去 好 像 解 决 了 认证 问题 ， 但 我 们 在 8. 3 节 将 会 看 到 这 只 是 解决 方案 的 
基础 。 然 而 ， 我 们 首先 要 解决 的 是 参与 者 如 何 获 得 密 钥 的 问题 ， 


8.2 BAMA 
要 使 用 密码 和 认证 码 ， 通 信 参 与 者 需要 知道 使 用 什么 密 铀 。 对 于 对 称 密 钥 密码 来 说 ， 
如 何 让 一 对 参与 者 得 到 所 共享 的 密 钥 ? 对 于 公 钥 密码 来 说 ， 参 与 者 如 何 知道 公 钥 属于 哪个 
特定 的 参与 者 ?这 两 个 问题 的 答案 根据 密 钥 是 短期 的 会 话 窗 钥 (session keys) 还 是 长 期 
的 预 分 发 密 钥 (predistributed keys) 而 不 同 。 
会 话 密 钥 用 于 保护 持续 时 间 相 对 较 短 的 单个 通信 (一 个 会 话 ) 的 安全 。 一 对 参与 者 之 
间 的 每 一 个 不 同 会 话 使 用 一 个 新 的 会 话 密 钥 。 为 了 加 快速 度 ， 会 话 密 钥 一 般 是 对 称 密 钥 。 
参与 者 通过 协议 一 一 会 话 密 钥 建 立 协 议 一 一 决定 使 用 哪个 会 话 密 钥 。 会 话 密 钥 建 立 协议 本 
身 应 该 是 安全 的 (只 有 这 样 ， 攻 击 者 才 不 能 得 到 新 的 会 话 密 钥 )， 其 安全 性 是 以 长 期 的 预 
分 发 密 钥 为 基础 的 。 
之 所 以 将 会 话 密 钥 与 预 分 发 密 钥 分 离 ， 有 如 下 几 个 原因 : 
。 限制 密 钥 总 的 使 用 时 间 能 够 减少 进行 计算 密集 型 攻击 的 时 间 ， 减 少 密码 分 析 者 可 
用 的 密 文 ， 同 时 也 减少 了 当 密 钥 被 破解 时 泄漏 的 信息 。 

。 对 对 称 密 钥 进行 预 分 发 是 有 问题 的 。 

。 公 钥 密码 更 适合 认证 和 会 话 密 钥 分 发 ， 但 如 果 用 于 加 密 整 个 消息 来 提供 机 密 性 则 
RET. 

本 节 将 说 明 预 分 发 密 钥 是 如 何 分 发 的 ，8. 3 节 将 解释 会 话 密 钥 是 如 何 建立 的 。 在 下 文 
中 我 们 用 “Alice” 和 “Bob” 来 代表 参与 者 ， 这 种 方法 在 密码 学 文献 中 很 常见 。 必 须要 记 
FE, 虽然 我 们 用 拟人 化 的 术语 来 标识 参与 者 ， 但 经 常 要 考虑 的 情况 是 软件 或 硬件 实体 之 间 
的 通信 ， 如 客户 端 和 服务 器 ， 它 们 经 常 与 参与 的 人 没有 直接 关系 。 


8.2.1 公 钥 预 分 发 


用 于 产生 相 匹 配 的 公 钥 / 私 钥 对 的 算法 是 公开 的 ， 其 软件 也 是 公开 的 。 因 此 ， 如 果 Al- 
ice 想 使 用 公 钥 密码 ， 她 可 以 产生 自己 的 公 钥 / 私 钥 对 ， 并 隐藏 私 钥 而 公开 公 钥 。 但 是 ， 她 
如 何 公 开 自 己 的 公 钥 呢 一 一 声明 该 公 钥 属于 她 一 一 其 他 参与 者 也 能 够 确保 该 密 钥 的 确 属 于 
她 。 不 能 通过 电子 邮件 或 Web 来 公开 密 钥 ， 因 为 攻击 者 能 够 伪造 一 个 足 可 以 乱 真 的 声明 ， 
宣布 密 钥 工 属于 Alice, MEXE xz 属于 攻击 者 。 

用 于 证 明 公 钥 与 身份 之 间 的 绑 定 关系 〈 哪 个 密 钥 属于 谁 ) 的 一 个 完整 的 方案 称 为 公民 
基础 设施 (Public Key Infrastructure, PKI), PKI 先 验证 身份 ， 然 后 以 带 外 方式 将 身份 绑 
定 到 密 钥 上 。 我 们 用 “ 带 外 ”表示 网 络 以 及 组 成 该 网 络 的 计算 机 以 外 的 东西 ， 就 像 下 面 描 
述 的 情况 。 如 果 Alice 和 Bob 是 相互 认识 的 个 体 ， 那 么 他 们 可 以 在 同一 个 房间 见面 ，Alice 
可 以 把 她 的 公 钥 交 给 Bob， 也 许 会 写 在 一 个 名 片上 面 。 如 果 Bob 是 一 个 组 织 ， 而 Alice fF 
为 个 体 可 以 出 示 传 统 的 身份 信息 ， 可 能 包括 一 张 照片 或 指纹 。 如 果 Alice 和 Bob 是 同一 个 
公司 拥有 的 计算 机 ， 那 么 系统 管理 员 能 够 为 Bob 配置 Alice 的 公 钥 。 

带 外 建立 密 钥 的 方式 看 起 来 扩展 性 不 强 ， 但 对 于 启动 PKI 已 经 足够 了 了 。Bob 知道 Al- 
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ice 的 密 钥 是 二， 此 信息 能 够 通过 数字 签名 与 信任 概念 相 结合 的 可 扩展 方式 广泛 传播 。 例 
如 ， 假 设 你 已 经 在 带 外 收 到 了 Bob 的 公 钥 ,那么 你 完全 可 以 在 密 钥 和 身份 方面 信任 Bob. 
那么 Bob 可 以 给 你 发 送 一 条 消息 ， 声 明 Alice AY HE x. AR AGE Bob 的 公 钥 ， 因 此 
能 够 认证 该 消息 来 自 Bob。( 记 住 ， 为 了 对 声明 进行 数字 签名 ，Bob 会 追加 一 个 用 他 的 私 
钥 加 密 的 消息 的 密码 散 列 值 .) 因为 你 相信 Bob 会 说 实话 ， 所 以 你 知道 Alice 的 密 钥 是 x, 
虽然 你 从 来 没有 见 到 过 她 ， 也 没有 与 她 交换 过 消息 。 使 用 了 数字 签名 ，Bob 甚至 不 需要 向 
你 发 送 消息 ， 他 可 以 只 是 简单 地 创建 并 发 布 一 个 被 数字 签名 的 声明 ， 说 明 Alice 的 公 钥 是 
Zz。 这 种 关于 公 和 钥 绑 定 关系 的 带 有 签名 的 声明 称 为 公 负 证 书 (public-key certificate) ， 或 简 
称 为 证 书 。Bob 可 以 向 Alice 发 送 该 证 书 的 一 份 拷贝 ， 或 者 将 它 发 布 在 网 站 上 。 当 有 人 需 
要 验证 Alice 的 公 钥 时 ， 只 要 他 们 相信 Bob 并 知道 他 的 公 钥 ， 他 们 就 能 得 到 该 证 书 的 拷 
贝 ， 或 者 从 Alice 那儿 直接 获得 。 可 以 看 到 ， 从 寥寥 几 个 密 钥 (在 本 例 中 ， 只 有 Bob 的 公 
钥 ) 开始 ， 随 着 时 间 的 推移 ， 你 能 够 建立 起 可 信和 密 钥 的 大 集合 。Bob 在 本 例 中 扮演 的 角色 
通常 称 为 认证 机 构 (Certification Authority, CA), 而 且 当 前 因特网 的 安全 主要 依赖 于 
CA。Versign@ 是 一 个 著名 的 商业 CA。 我 们 会 在 下 面 继续 讨论 本 主题 。 

主要 的 证 书 标准 之 一 是 X. 509。 该 标准 的 很 多 细节 都 是 开放 的 ， 只 是 规定 了 一 个 基本 
结构 。 证 书 必 须 包 含 : 

。 被 证 明 的 实体 的 身份 。 

。 被 证 明 的 实体 的 公 铀 。 

。 签发 者 的 身份 。 

。 数字 签名 。 

。 数字 签名 算法 标识 符 (使 用 了 哪个 密码 散 列 函 数 和 密码 算法 )。 

一 个 可 选 的 组 件 是 证 书 的 过 期 时 间 。 我 们 会 在 下 面 看 到 该 特征 的 一 个 具体 应 用 。 

因为 证 书 创建 了 身份 与 公 钥 之 间 的 绑 定 关系 ， 所 以 我 们 应 该 更 深入 地 研究 “身份 ”的 
含义 。 例 如 ， 一 个 证 书 的 内 容 是 “该 公 钥 属于 John Smith”， 那 么 ， 如 果 你 不 能 区 分 该 证 
书 所 说 的 是 成 千 上 万 个 John Smith 中 的 哪 一 个 ， 那 么 该 证 书 的 用 处 就 不 大 。 因 此 ， 证 书 
必须 对 所 要 证 明 的 吴 份 使 用 有 明确 定义 的 命名 空间 ， 例 如 ， 经 常 为 电子 邮件 地 址 和 DNS 
域 颁发 证 书 。 

PKI 能够 使 用 不 同方 法 来 形式 化 信任 表示 ， 我 们 讨论 两 种 主要 的 方法 。 

1. 认证 机 构 

在 该 信任 模型 中 ， 信 任 是 二 元 的 ， 你 要 么 完全 信任 某 个 人 或 者 完全 不 信任 他 。 与 证 书 
结合 就 能 创建 信任 链 (chains of trust). WR X 证 明 某 个 公 钥 属于 Y， 而且 Y 进一步 证 明 
男 一 个 公 钥 属于 Z， 那 么 ， 尽 管 X 和 2Z 从 未 见 过 面 ， 仍 然 存在 一 条 从 X BZ 的 证 书 链 。 如 
果 你 知道 X 的 密 钥 一 一 你 必须 信任 X 和 Y 一 一 那么 你 可 以 信任 那个 给 出 Z 的 密 钥 的 证 书 。 
换 句 话 说， 你 所 需要 的 只 是 一 个 证 书 链 ， 所 有 证 书 都 是 由 你 信任 的 实体 签名 的 ， 只 要 该 证 
书 链 能 够 回 到 某 个 已 知 的 实体 即 可 。 

认证 机 构 (certification authority/certificate authority, CA) 是 一 个 (被 某 些 人 ) E 
明 为 用 于 验证 和 颁发 证 书 的 可 信 实 体 。 有 商业 CA、 政 府 CA 甚至 免费 CA。 为 了 使 用 CA， 
你 必须 要 知道 其 密 钥 。 如 果 你 可 以 得 到 从 某 个 已 知 其 密 钥 的 CA 开始 的 签名 证 书 链 ， 那 么 
你 就 能 得 到 该 CA 的 密 钥 。 然 后 ， 你 就 可 以 相信 由 该 CA 签名 的 任何 证 书 。 
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构建 这 种 链 的 流行 方法 是 用 分 层 的 树 形 结构 进行 排列 ， 如 网 8-6 所 示 。 如 果 每 个 人 有 
根 CA 的 公 钥 ， 那 么 任何 一 个 参与 者 可 以 向 另 一 个 参与 者 提供 一 个 证 书 链 ， 并 且 他 知道 这 
足以 为 那个 参与 者 建立 一 条 信任 链 。 
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图 8-6 认证 机 构 的 分 层 树 形 结构 


关于 构建 信 认 链 还 有 一 些 重要 问题 。 最 重要 的 是 ， 即 使 你 确信 拥有 根 CA 的 公 钥 ,也 
必须 保证 根 CA 下 面 的 每 个 CA 正常 工作 。 如 果 只 有 一 个 CA 愿意 为 没有 验证 身份 的 个 体 
颁发 证 书 ， 那 么 一 条 看 上 去 有 效 的 证 书 链 就 变 得 没有 意义 了 。 例 如 ， 根 CA 可 能 向 一 个 二 
层 CA 颁发 了 一 个 证 书 ， 证 明证 书 中 的 名 字 与 该 CA 的 企业 名 称 一 致 ， 但 这 个 第 二 层 CA 
可 能 希望 向 任何 提出 请 求 的 人 出 售 证 书 ， 而 且 不 需要 验证 身份 ， 信任 链 越 长 ， 这 个 问题 就 
越 严重 。X. 509 证 书 提供 了 一 个 选项 ， 能 限制 证 书 主体 可 以 依次 证 明 的 实体 集合 。 

一 个 证 书 链 可 能 有 多 个 根 ， 例 如 ， 这 种 情况 在 保护 当前 Web 交易 的 安全 时 就 很 常见 。 
Web 浏览 器 ， 如 Firefox 和 Internet Explorer， 已 经 预 装 了 一 个 CA 集合 的 证 书 。 FXE. 
浏览 器 的 生产 者 已 经 确信 这 些 CA 以 及 它们 的 密 钥 是 可 信 的 。 用 户 可 以 向 浏览 器 认为 可 信 
的 实体 追加 证 书 。 安 全 套 接 字 层 /传输 层 安 全 (SSL/TLS) 接受 这 些 证 书 ，SSL/TLS 协议 
经 常用 于 保护 Web 事务 的 安全 ， 我们 将 在 8. 4. 3 节 进 行 讨论 。( 如 果 你 感到 好 奇 ， 你 可 以 
随便 看 一 下 浏览 器 的 偏好 设置 ， 找 到 “查看 证 书 ” 选 项 来 查看 你 的 浏览 器 被 设置 成 信任 多 
少 个 CA。) 

2. 信任 网 络 

另 一 种 信任 模型 是 以 良好 隐私 (Pretty Good Privacy, PGP) 为 例 的 信任 网 络 (web 
of trust) ， 该 模型 将 在 8. 4. 3 节 深 入 讨论 。PGP 是 用 于 电子 邮件 的 安全 系统 ， 因 此 与 公 钥 
绑 定 的 是 电子 邮件 地 址 ， 用 于 证 书签 名 的 也 是 电子 邮件 地 址 。PGP 的 初衷 是 抵抗 政府 的 人 
侵 ， 因 此 没有 使 用 CA。 相反 ， 每 个 个 体能 够 决定 信任 谁 ， 以 及 信任 他 们 的 程度 。 在 该 模 
型 中 ， 信 任 是 一 个 程度 问题 。 另 外 ， 公 和 钥 证 书 可 以 包含 一 个 信任 级 别 来 指明 签发 者 对 证 书 


中 公 钥 绑 定 的 信任 程度 。 因 此 ， 一 个 用 户 可 能 在 信任 一 个 密 钥 绑 定 前 不 得 不 获得 多 个 证 明 
该 绑 定 的 证 书 。 


例如 ， 假 设 你 有 一 个 由 Alice 提供 的 针对 Bob 的 证 书 ， 你 可 能 给 该 证 书 指定 一 个 中 等 
信任 级 别 。 但 是 ， 如 果 你 还 有 其 他 由 C 和 D 提供 的 针对 Bob 的 证 书 ， 而 且 他 们 都 是 中 等 
可 信 的 ， 那 么 就 可 以 大 大 增加 你 对 该 公 钥 是 Bob 的 有 效 公 钥 的 信心 。 简 而 言 之 ，PGP iA 
为 建立 信任 的 问题 完全 是 个 人 的 事情 ， 为 用 户 提 供 原 始 资料 ， 并 让 他 们 做 出 自己 的 决定 ， 
而 不 是 假设 他 们 都 自愿 信任 CA 的 单一 层次 结构 。 引 用 PGP 的 开发 者 Phil Zimmerman 的 
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话 来 说 ,“PGP 是 为 喜欢 自己 打包 降落 们 的 人 设计 的 。” 

PGP 在 网 络 界 已 经 相当 流行 ，PGP 密 钥 签 名 聚会 成 为 IETF 会 议 的 一 个 特点 。 在 这 样 
的 聚会 上 ,个 人 可 以 : 

。 从 他 知道 身份 的 其 他 人 那里 收集 公 钥 。 

。 把 自己 的 公 钥 提供 给 其 他 人 。 

© 获得 由 其 他 人 签署 的 自己 的 公 钥 ， 从 而 收集 对 不 断 扩 大 的 人 群 更 有 说 服 力 的 证 书 。 

。 签署 另外 一 些 人 的 公 钥 ， 从 而 帮助 他 们 建立 证 书 集 合 ， 用 户 分 发 他 们 的 公 铀 。 

。 从 自己 足够 信任 的 签署 密 钥 的 其 他 人 那里 收集 证 书 。 

这 样 ， 随 着 时 间 的 推移 ， 一 个 用 户 会 收集 一 套 具 有 不 同 信任 程度 的 证 书 。 

3. 撤销 证 书 

由 证 书 引发 的 一 个 问题 是 如 何 撤销 或 取消 一 个 证 书 。 这 个 问题 为 什么 重要 呢 ? 假设 你 
怀疑 某 人 已 发 现 了 你 的 私 钥 。 而 在 世界 上 可 能 有 任意 多 个 证 书 宣 称 你 是 与 那个 私 钥 对 应 的 
公 钥 的 拥有 者 。 这样 ， 发 现 你 的 私 钥 的 人 拥有 了 假冒 你 所 需 的 一 切 东西 : 有 效 的 证 书 和 你 
的 私 钥 。 要 解决 这 个 问题 ， 最 好 能 取消 旧 的 被 泄露 的 密 钥 与 你 的 身份 绑 定 ， 使 得 假冒 者 不 
能 再 说 服 其 他 人 相信 他 就 是 你 ， 

对 这 个 问题 的 基本 解决 方案 十 分 简单 。 每 个 认证 机 构 可 以 发 行 一 张 证 书 撤销 列表 
(Certificate Revocation List，CRL)， 它 是 一 个 经 过 数字 签名 的 被 撤销 的 证 书 的 列表 。 
CRL 定期 更 新 并 公开 。 因 为 它 是 经 过 数字 签名 的 ， 因 此 可 以 张贴 在 网 站 上 。 这 样 ， 当 Al- 
ice 接收 到 Bob 的 证 书 并 和 希望 验证 该 证 书 时 ，Alice 会 首先 查阅 CA 最 近 公 布 的 CRL。 只 要 
证 书 示 被 撤销 ， 它 就 有 效 。 注意， 如 果 所 有 证 书 都 有 无 限 的 有 效 期 ，CRL 就 会 变 得 越 来 
越 长 ， 因 为 担心 可 能 要 使 用 被 撤销 的 证 书 的 某 些 找 贝 ， 你 永远 不 会 从 CRL 中 去 掉 一 个 证 
书 。 办 此 ， 通 常会 在 颁发 证 书 时 附 上 有 效 日 期 。 这 样 ， 我们 就 能 限制 被 撤销 的 证 书 知 要 保 
留 在 CRL 于 的 时 间 。 只 要 它 过 了 最 初 设 定 的 有 效 日 期 ， 就 可 以 从 CRL 中 删除 它 。 


8.2.2 对 称 密 钥 预 分 发 


如 果 Alice 想 用 秘密 密 钥 密码 与 Bob 通信 ,那么 她 就 不 能 只 选择 一 个 密 钥 并 发 送 给 
他 ， 因 为 如 果 事 先 没有 密 钥 ， 他 们 就 不 能 加 密 该 秘密 密 钥 以 便 保 密 ， 而 且 也 不 能 相互 认 
证 。 就 像 公 钥 一 样 ， 震 要 某 种 预 分 发 机 制 。 对 称 密 钥 的 预 分 发 比 公 钥 的 预 分 发 困难 ， 有 两 
个 主要 原因 : 

。 虽然 每 个 实体 只 震 要 一 个 公 钥 就 能 够 满足 认证 和 保密 的 需要 ， 但 想 要 通信 的 每 一 

对 实体 必须 有 一 个 对 称 密 钥 。 如 果 有 N 个 实体 ,那么 需要 NCN 一 1)/2 个 密 钥 。 

。 与 公 银 不 同 ， 秘 密 密 钥 必须 要 保密 。 

总 而 言 之 ， 需 要 分 发 更 多 的 密 钥 ,而 且 你 不 能 使 用 任何 人 都 可 以 读 的 证 书 。 

最 常见 的 解决 方法 是 使 用 帘 钥 分 发 中 心 (Key Distribution Center, KDC), KDC 是 一 
个 与 每 个 实体 都 共享 一 个 秘密 密 钥 的 可 信和 实体 。 这 就 将 密 钥 数量 降低 到 N 一 1 个 ， 因 此 更 
好 管理 ， 对 一 些 应 用 来 说 完全 可 以 在 带 外 建立 这 些 密 钥 。 当 Alice 希望 与 Bob 通信 时 ， 其 
通信 内 容 并 不 经 过 KDC。KDC 只 是 参与 认证 Alice 和 Bob 的 协议 使 用 KDC 已 经 与 他 
AJ Gr Sal SE SE) a GH 并 为 他 们 生成 新 的 会 话 密 钥 。 然 后 Alice 和 Bob 直接 使 用 他 们 的 会 
话 密 钥 通信 。Kerberos ( 见 8.3.3 节 ) 是 一 个 基于 该 方法 的 应 用 广泛 的 系统 。 
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4 

Ri 


346 pE 





8.3 认证 协议 

我 们 在 8. 1 节 描 述 了 如 何 加 密 消 息 和 创建 认证 码 , 在 8.2 节 介绍 了 了 如何 预 分 发 必要 的 
密 钥 。 更 保护 协议 安全 ， 看 起 来 好 像 只 要 在 每 条 消息 后 追加 认证 但 并 在 需要 保密 的 时 候 加 
密 消 息 就 可 以 了 。 

实际 上 并 没有 这 么 简单 ， 有 两 个 原因 。 首 先 ， 存 在 重 放 攻 击 (replay attack) 的 问题 : 
攻击 者 重新 传送 一 条 以 前 发 送 过 的 消息 。 例 如 ， 如 果 该 消息 是 你 在 网 站 上 下 的 订单 ,那么 
重 放 的 消息 对 网 站 来 说 好 像 是 你 又 订购 了 一 份 同样 的 东西 。 虽 然 这 条 消息 不 是 最 初 的 那 条 
消息 ， 但 认证 码 依然 有 效 ， 毕 竟 该 消息 是 你 创建 的 ， 并 且 没 有 被 等 改 。 这 种 攻击 的 一 种 变 
形 叫 作 隐 藏 重 放 攻 击 (suppress-replay attack), Mih # A RE AE HERS IMA 〈 通 过 劫持 
消息 并 在 以 后 重 放 该 消息 来 实现 ) ， 从 而 使 该 消息 在 不 合适 的 时 候 被 接收 到 。 例 如， 攻击 
者 可 以 将 你 的 股票 订单 从 一 个 合适 的 时 间 推 迟到 一 个 你 并 不 想 买 和 人 的 时 间 。 虽然 这 条 消息 
从 某 种 意义 上 说 还 是 原始 的 ， 但 它 不 具有 时 效 性 。 原 始 性 和 时 效 性 可 以 看 作 完整 性 的 不 同 
方面 。 要 保障 这 两 个 方面 ， 在 大 部 分 情况 下 需要 一 个 重要 的 反复 的 协议 。 

另 一 个 我 们 还 没有 解决 的 问题 是 怎样 建立 会 话 密 钥 。 会 话 密 钥 是 在 通信 过 程 中 生成 的 
对 称 密码 密 钥 ， 只 用 于 一 次 会 话 ， 参 见 8. 2 节 。 这 同样 也 包含 一 个 重要 的 协议 。 

这 两 个 问题 的 共同 点 是 认证 。 如 果 一 条 消息 不 是 原始 的 且 及 时 的 ， 那 么 从 实用 的 角度 
出 发 ， 我 们 希望 将 它 看 作 一 条 不 真实 的 消息 ， 并 不 来 源 于 它 所 声称 的 实体 。 另 外 ， 很 显 
然 ， 当 你 安排 与 某 人 共享 一 个 新 会 话 密 钥 时 ， 你 希望 知道 你 确实 与 正确 的 人 共享 了 窗 钥 
通常 ， 认 证 协议 也 同时 建立 会 话 密 钥 ， 这 样 在 协议 结束 时 ，Alice 和 Bob 已 经 认证 了 对方 
并 有 了 一 个 新 的 对 称 密 钥 。 如 果 没 有 新 会 话 密 钥 ,协议 只 能 在 某 个 时 间 点 认证 Alice 和 
Bob， 而 会 话 密 钥 允许 他 们 有 效 地 认证 后 续 的 消息 。 一般 情况 下 ,会 话 密 乌 建立 协议 执行 
认证 (一 个 值得 注意 的 例外 是 Diffie-Hellman, JL 8.3.4 节 )。 因 此 ， 术 语 认 证 协议 (au- 
thetication protocol) 和 会 话 密 钥 建立 协议 (session key establishment protocol) 几乎 是 同 
义 的 。 

在 认证 协议 中 有 一 套 确保 原始 性 和 时 效 性 的 核心 技术 。 在 讨论 县 体 协 议 前 ， 我们 先 描 
述 这 些 技术 。 

8. 3. 1 原始 性 和 时 效 性 技术 

我 们 已 经 看 到 只 用 认证 码 并 不 能 使 我 们 检测 到 非 原 始 的 或 不 及 时 的 消息 。 一 种 方法 是 
在 消息 中 包含 时 间 改 。 显 然 ， 时 间 惟 本 身 必须 是 防 自 改 的 ， 因 此 认证 码 必 须 涵盖 它 。 时 间 
戳 的 主要 缺点 是 它们 需要 分 布 式 的 时 钟 同步 。 因 为 我 们 的 系统 会 依赖 于 同步 ， 因 此 时 钟 同 
步 除 了 常见 的 挑战 外 ， 也 需要 被 保护 以 抵抗 安全 威胁 。 男 一 个 问题 是 分 布 式 的 时 钟 只 能 在 
一 定 程度 上 保持 同步 一 一 一 定 的 误差 幅度 。 因 此 ， 时 间 蕉 提供 的 时 序 完整 性 的 精确 度 只 能 
与 同步 的 程度 相当 。 

另 一 种 方法 是 在 消息 中 包含 一 个 当前 值 (nonce) 一 一 只 使 用 一 次 的 随机 数 。 参 与 者 
能 够 通过 检查 该 当前 值 是 否 曾 使 用 过 来 检测 重 放 攻 击 。 不 过 ， 这 需要 记录 以 前 使 用 的 当前 
值 ， 这 会 积累 大 量 的 数据 .一 种 解决 方法 是 将 时 间 崔 和 当前 值 结合 起 来 ， 只 需要 当前 值 在 
一 定 的 时 间 范 围 内 保持 唯一 。 这 样 就 能 以 便于 管理 的 方式 保证 当前 值 的 唯一 性 ， 而 且 只 震 
要 时 钟 的 不 精确 同步 。 





fie PREY PET FR AA 4 AL BY) 9 — BP SS EE HR a  (challenge-response) 协议 中 
使 用 时 间 惟 和 当前 值 。 假 设 我 们 使 用 时 
fae. CE PE ARM NPIL, Alice 向 Bob 
发 送 一 个 时 间 戳 . 让 Bob 在 响应 消息 中 
加 密 该 时 间 惟 (如 果 他 们 共享 一 个 对 称 
密 钥 ) 或 者 对 该 时 间 惟 进行 数字 签名 | 
(如 果 Bob 有 一 个 公 钥 ， 如 图 8-7 所 示 )。 EE ii 
BED OY IE Tad BE ER — AET | 
效 性 的 认证 码 。Alice 能 够 很 容易 地 检查 
来 自 Bob 的 响应 消息 中 时 间 惟 的 时 效 性 ， 
因为 该 时 间 鹤 来 自 Alice 自己 的 时 钟 一 一 图 8-7 挑战 -响应 协议 
不 需要 分 布 式 的 时 钟 同步 。 再 假设 协议 使 用 当前 值 。 那 么 Alice 只 需要 跟踪 响应 消息 正在 
显示 的 当前 值 以 及 很 长 时 间 内 没有 被 显示 的 当前 值 ， 任 何 带 有 无 法 识别 的 当前 值 的 响应 都 
是 伪造 的 。 

挑战 -响应 的 优点 是 它 将 时 效 性 和 认证 结合 起 来 ， 因 为 只 有 Bob 知道 用 于 加 密 这 个 从 
未 出 现 过 的 时 间 截 或 当前 值 的 密 钥 〈 如 果 是 对 称 密 钥 密 码 ，Alice 也 知道 这 个 密 钥 )， 否 则 
协议 就 会 品 得 异常 复杂 。 在 下 面 描述 的 大 部 分 认证 协议 中 都 使 用 时 间 惟 或 当前 值 。 


Alice Bob 





T = 来 自 Alice 时 钟 的 时 间 稚 





8.3.2 公 钥 认证 协议 

在 讲述 公 钥 认证 协议 前 ， 我 们 假设 已 经 通过 某 些 诸如 PKI 的 方法 ( 见 8. 2. 1 节 ) 预 分 
发 了 Alice 和 Bob 的 公 钥 。 这 也 包括 Alice 在 她 发 送 给 Bob 的 第 一 条 消息 中 包含 自己 证 书 
的 情况 以 及 Bob 在 收 到 Alice 发 送 的 第 一 条 消息 后 搜索 Alice 证 书 的 情况 。 

第 一 个 协议 〈 见 图 8-8) 依赖 于 Alice 和 Bob 的 时 钟 同步 。Alice 向 Bob 发 送 一 条 包含 
明文 时 间 禹 及 其 身份 和 数字 系 名 的 消息 。Bob 用 数字 此 名 来 认证 消息 。 用 时 间 徐 米 监 证 消 
-条 消息 ， 包 售 明 文 时 间 崔 和 他 的 身份 ， 以 及 一 个 用 Alice 的 

公 钥 加 密 的 新 会 话 密 钥 〈 为 了 保密 )， 并 且 所 有 内 容 都 被 数字 签名 了 。Alice 能 够 验证 消息 
的 真实 性 和 时 效 性 ， 以 便 确 定 这 个 新 会 话 密 钥 是 否 可 信 。 为 了 解决 时 钟 同 步 不 精确 的 问 
题 ， 可 以 将 时 间 鹤 与 当前 值 结合 使 用 。 

Alice Bob 


A=Alice 
B=Bob 
T= 时 间 截 
[= 采用 X 私 铀 的 数字 
X 签名 


< = 采用 X 公 钥 加 密 


= 新 会 话 密 钥 


SC 





=) 


图 8-8 ”依赖 于 同步 的 公 钥 认证 协议 
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第 二 个 协议 〈 见 图 8-9) 与 前 一 个 类 似 ， 但 不 依赖 于 时 钟 同步 。 在 这 个 协议 中 ，Alic 
还 是 向 Bob 发 送 一 条 包含 时 间 戳 及 其 身份 的 经 数字 签名 的 消息 .因为 他 们 的 时 钟 并 不 同 
步 ， 因 此 Bob 不 能 确定 该 消息 是 否 是 新 消息 。Bob 回 送 一 条 经 数字 签名 的 包含 Alice 的 厚 
始 时 间 鹤 、 他 自己 的 时 间 惟 以 及 他 的 身份 的 消息 。Alice 可 以 通过 将 她 的 原始 时 间 玲 与 好 
的 当前 时 间 相 比较 来 验证 消息 的 时 效 性 。 然 后 她 再 向 Bob 发 送 一 条 经 数字 签名 的 包含 Bob 
的 原始 时 间 戳 以 及 用 Bob 的 公 钥 加 密 的 新 会 话 密 钥 的 消息 。Bob 能 够 验证 消息 的 时 效 性 、 
因为 该 时 间 惟 来 自 他 的 时 钟 ， 以 便 确定 这 个 新 的 会 话 密 钥 是 否 可 信 。 时 间 堆 实际 上 充当 了 
一 种 便利 的 当前 值 ， 并 且 这 个 协议 的 确 可 以 使 用 当前 值 。 





A=Alice 
B=Bob 
T= 来 自 X 时 钟 的 时 间 鹤 


= 采用 X 私 钥 的 数字 
xX 签名 


< = 采用 X 公 钥 加 密 


=i eH 














图 8-9 不 依赖 于 同步 的 公 钥 认证 协议 。Alice SOK n tE ak 
与 她 自己 的 时 钟 比 对 ，Bob 也 只 做 类 似 的 比 对 


8.3.3 ”对 称 密 钥 认证 协议 


正如 8. 2.2 节 所 说 的 那样 ， 只 有 在 比较 小 的 系统 中 为 每 一 对 实 Ha :可行 
的 。 在 本 书 中 ， 我 们 重点 讨 沦 大 系统 ， 其 中 每 个 实体 都 有 自己 的 与 KDC 共享 的 主 密 铀 
(master key)。 在 这 种 情况 下 ， 基 于 对 称 密 钥 的 认证 协议 包含 三 个 实体 : Alice, E Bob fil 
KDC。 该 协议 最 终 的 输出 是 Alice 和 Bob 之 间 共 享 的 会 话 密 铀 ， 他 们 可 以 使 用 该 密 钥 直接 
通信 ,， 而 不 需要 与 KDC 交互 。 

图 8-10 描述 了 Needham-Schroeder 认证 协议 。 注意 ，KDC 实际 上 并 不 认证 Alice 的 
第 一 条 消息 ， 而 且 根 本 不 与 Bob 通信 。KDC 只 是 用 它 所 知道 的 Alice 和 Bob 的 主 密 钥 来 构 
造 一 条 对 于 除 Alice 以 外 的 人 都 没有 用 的 响应 M 息 CRA Alice 可 以 解密 该 消息 )， 消 息 中 
包含 了 Alice 和 Bob 用 于 执行 认证 协议 剩余 步骤 所 需要 的 资料 。 

前 两 条 消息 中 的 当前 值 用 于 让 Alice 确认 KDC 的 响应 消息 是 新 的 。 第 二 条 和 第 三 条 消 
息 包 人 罕 新 的 会 话 密 钥 以 及 Alice 的 身份 ， 并 且 都 用 Bob AYE HINA. 这 是 一 种 对 称 密 乌 
版 本 的 公 钥 证 书 ， 它 实际 上 是 一 种 由 KDC 签名 的 声明 (因为 KDC 是 除 Bob 以 外 唯一 知道 
Bob 主 密 钥 的 实体 )， 该 声明 说 明了 所 包含 的 会 话 密 钥 属于 Alice 和 Bob, 虽然 最 后 两 条 消 
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Alice KDC Bob 





A=Alice 
B=Bob 
N= 当前 值 
= 采用 X 和 YY 共享 的 
密 钥 加 密 
= 新 会 话 密 钥 








| Bisa 


“sgh 
图 8-10 Needham-Schroeder 认证 协议 


息 中 的 当前 值 用 于 让 Bob 确认 第 三 条 消息 是 真 的 ， 但 该 推理 有 一 个 缺陷 一 一 见习 题 4。 

Kerberos 

Kerberos 是 一 个 基于 Needham-Schroeder Hpi WiAiE KBE. BPI FR N m- IR AF 
环境 中 。Kerberos 最 初 是 由 MIT 开发 的 ,目前 是 一 个 IETF 标准 ， 既 有 开源 产品 ， 又 有 
商业 产品 。 在 这 里 ， 我 们 关注 Kerberos 的 一 些 有 趣 的 创新 。 

Kerberos 的 客户 一 般 通 过 口令 来 认证 自己 。Alice 与 KDC 共享 的 主 密 钥 是 由 她 的 口令 
推算 出 的 一 一 如 果 你 知道 口令 ， 你 就 能 计算 出 密 钥 。Kerberos 假设 任何 人 都 能 够 通过 物理 
RERE 端 ， 因 此 不 但 要 在 网 络 中 ， 而 且 在 Alice 登录 的 任何 计算 机 上 ， 都 要 尽 

量 减 小 Alice 的 口令 被 泄露 的 可 能 性 。Kerberos 利用 Needham-Schroeder 来 实现 这 一 点 。 
m Needham-Schroeder H, Alice ME —— vx {ii H O S E fM HEA KDC 的 响应 。Kerberos 的 
客户 端 软件 一 直 等 待 KDC 响应 的 到 来 ， 然 后 提示 Alice 输入 她 的 口令 ， 计 算 主 密 钵 ， 解 密 
KDC 的 响应 ， 并 删除 所 有 有 关口 令 和 主 密 钥 的 信息 以 便 将 泄漏 口令 的 可 能 性 降 到 最 低 。 
还 要 注意 ， 用 户 意识 到 正在 使 用 Kerberos 的 唯一 标记 是 当 用 户 le 令 时 。 

在 Needham-Schroeder 中 ，KDC 发 给 Alice 的 响应 有 两 个 作用 : 为 她 提供 了 一 种 证 明 
其 身份 的 方法 (只 有 Alice 能 解密 该 响应 )， 为 她 提供 了 一 种 能 够 展现 给 Bob 的 对 、 $H 
证 书 或 “票据 ”一 一 用 Bob 的 主 密 钥 加 密 的 会 话 密 钥 和 Alice 身份 。 在 Kerberos 中 ， 这 两 
个 功能 以 及 KDC 本 身 都 被 一 分 为 二 ( 风 图 8-11)。 称 为 认证 服务 器 (Authentication Serv- 
er, AS) 的 可 信服 务 费 完成 KDC 的 第 一 个 功能 ， 即 为 Alice 提供 一 种 证 明 身 份 的 方法 
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(不 是 向 Bob 证 明 ， 而 是 向 称 为 票据 授予 服务 器 (Ticket Granting Server. TGS) fy 
个 可 信和 服务器 证 明 )。TGS 完成 KDC 的 第 二 个 功能 ， 向 Alice 回 送 一 个 提交 给 Bob 的 票 
据 。 该 方案 的 优点 是 ， 如 果 Alice 需要 与 多 个 服务 器 通信 ， 而 不 仅 是 Bob， 那 么 她 能 够 从 
TGS 为 每 一 个 服务 器 获得 一 个 票据 ， 而 不 需要 访问 AS。 
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图 8-11 Kerberos 认证 


在 使 用 Kerberos 的 客户 端 - 服 务 器 应 用 领域 中 ， 假 设 一 定 程 度 的 时 钟 同步 是 合理 的 。 
这 人 允许 Kerberos 使 用 时 间 惟 和 生命 alae Needham-Schroeder 的 当前 值 、 因 此 可 以 避 
免 习 题 4 中 讨论 的 Needham-Schroeder 的 安全 弱点 。Kerberos 支持 的 密码 算法 包括 散 列 函 
数 SHA-1 和 MD5， 对 称 密 钥 密码 AES、3DES 和 DES. 


d 
$ 
A} 
ia 
ON 





8.3.4 Diffie-Hellman % $H th 

Diffie Hellman 密 钥 协商 协议 用 于 建立 会 话 密 铀 ， 而 不 需要 预 分 发 密 钥 。Alice 与 
Bob 之 间 交 换 的 消息 能 够 被 窃听 ， 但 是 窃听 者 不 知道 Alice 和 Bob 最 终 计 算出 的 会 话 密 
钥 。 另 一 方面 ，Diffie-Hellman 并 不 认证 参与 者 。 因 为 在 不 能 确认 与 谁 通 信 的 情况 下 进 
行 安全 通信 几乎 没有 意义 的 因此 通常 以 某 种 方式 对 Diffie Hellman 进行 补充 来 提供 

这 个 协议 有 两 个 参数 p 和 & ， 两 个 都 是 公共 参数 而 且 可 以 被 系统 中 的 所 有 用 户 使 用 。 
参数 p 必须 是 一 个 素数 。 整 数 mod p (modulo p 的 缩写 ) 后 的 结果 在 O~p—l 之 间 ， 因 
为 x mod p 是 x 被 bp 整除 后 的 余数 ， 这 就 形成 了 数学 家 所 说 的 乘法 群 (group)。 人 参数 g 
(一 般 称 为 生成 元 ) 必须 是 p 的 本 原 根 (primitive root): 对 1~p 一 1 之 间 的 每 个 数 2， 都 
存 一 个 值 A， 使 得 z 一 &% mod p。 例 如 ， 如 果 p ERS 〈 实 际 系统 中 使 用 的 素数 大 得 多 )， 
那么 我 们 可 以 选择 2 作为 生成 元 5， 因为 : 


1 

2 

3 = 23 mod p 
4=2 


假设 Alice 和 Bob 想 协商 一 个 共享 对 称 密 钥 。Alice 和 Bob 以 及 所 有 其 他 人 都 已 经 知 
T pHa 的 值 。Alice 生成 一 个 随机 私有 值 a，Bob 生成 一 个 随机 私有 值 56。a 和 4 都 是 
从 11，…, pl} 这 组 整数 中 选取 出 来 的 。Alice 和 Bob 推算 出 相应 的 公开 值 一 一 他 们 将 
要 发 送 给 对 方 的 未 加 密 的 值 ， 如 下 所 示 。Alice 的 公开 值 是 

g* mod p 
Bob 的 公开 值 是 
g’ mod p 
然后 交换 他 们 的 公开 值 。 最 后 ，Alice it 
g% mod p=(g’ mod p)* mod p 
Bob 计算 
g“ mod p=(g* mod p)” mod p 
现在 Alice 和 Bob 将 g” mod p (与 g mod p 相等 ) 作为 他 们 共享 的 对 称 密 钥 。 
任何 窃听 者 都 能 知道 p、g 以 及 两 个 公开 值 g* mod p 和 gt mod p。 如 果 窍 听 者 能 够 确定 


a 或 5»， 她 才能 够 很 容易 地 计算 出 密 钥 。 然 而 ， 对 于 足够 大 的 p、a 和 65， 从 这 些 信息 中 得 出 a 
a b 在 计算 上 是 不 可 行 的 ， 这 称 为 离散 对 数 问题 Alioe i i 


(discrete logarithm problem) 。 | i 
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题 。 一 种 可 以 利 用 该 问 题 的 攻 击 是 中 间 大 Ih + ( man- mL 

in-the-middle attack), {fi Mallory 是 一 个 能 够 截获 消 f | 

息 的 攻击 者 。Mallory 已 经 知道 了 p Mg, AWENA | pp S 

Wher ee ee eT ee ee ， gw Mod py 

是 公开 的 。 她 还 产生 了 两 个 随机 私有 值 < 和 以 ， 分 别 用 | 

于 与 Alice 和 Bob 通信 。 当 Alice 和 Bob 向 对 方 发 送 了  ! | 

他 们 的 公开 值 时 ，Mallory 截获 这 些 值 并 发 送 她 自己 的 图 8-12 中间 人 攻击 





公开 值 ， 如 图 8-12 所 示 。 结 果 是 Alice 和 Bob 在 不 知情 的 情况 下 分 别 与 Mallory 而 不 是 与 
对 方 共享 了 一 个 密 钥 。 

Diffie-Hellman 的 一 种 称 为 修补 的 Diffie-Hellman (fixed Diffie-Hellman) 的 变形 提供 
了 对 一 方 或 两 方 参与 者 的 认证 。 它 依赖 于 与 公 角 证 书 类 似 的 证 书 . 但 它 用 于 证 明 实体 的 
Diffie— Hellman 公共 参数 。 例 如， 这 种 证 书 可 能 会 声明 Alice 的 Diffie-Hellman 参数 是 p., 
gg’ mod p (注意 ,a 的 值 仍然 只 有 Alice 知道 ) 。 这 种 证 书 能 够 让 Bob 确信 执行 Diffie 
Hellman 协议 的 另 一 方 是 Alice 一 一 其 他 参与 者 不 能 计算 出 秘密 密 钥 ， 因 为 她 不 知道 a。 如 
果 两 个 参与 者 都 有 Diffie-Hellman 参数 证 书 ， 他 们 便 可 以 互相 认证 。 如 果 只 有 一 个 参与 者 
有 证 书 ， 那 么 只 有 这 个 参与 者 能 够 被 认证 。 这 在 一 些 情况 下 是 有 用 的 ， 例 如 ， 当 一 个 参与 
者 是 一 台 Web 服务 器 ， 另 一 个 参与 者 是 任意 的 客户 ， 该 客户 能 够 在 向 Web 服务 器 发 送信 
用 卡 卡 号 前 认证 该 服务 器 并 建立 一 个 用 于 保密 的 会 话 密 钥 。 


8.4 系统 实例 


截至 目前 ， 我 们 已 看 到 了 构造 某 种 安全 性 所 需要 的 组 件 。 这 些 组 件 包括 密 码 算法 、 密 
钥 预 分 发 机 制 和 认证 协议 。 这 一 节 我 们 分 析 一 些 使 用 这 些 组 件 的 完整 系统 。 

可 以 根据 这 些 系统 工作 的 协议 层 粗略 地 进行 分 类 。 工 作 在 应 用 层 的 系统 包括 良好 隐私 
(Pretty Good Privacy，PGP), 它 提供 电子 邮件 安全 和 安全 外 壳 (Secure Shell. 
SSH) 一 一 一 个 安全 的 远程 登录 工具 。 在 传输 层 ， 有 IETF 的 传输 层 安全 (Transport 
Layer Security. TLS) 标准 和 它 所 派生 于 的 较 早 的 安全 套 接 字 层 (Secure Socket Layer, 
SSL) HX. IPsec (IP 安全 ) WN. 顾名思义， 工作 在 IP (网 络 ) 层 。802. 11i 为 无 线 网 
络 的 链 路 层 提 供 了 安全 性 。 本 节 将 阐述 每 个 方法 的 主要 特性 。 

你 可 能 会 疑惑 为 什么 必须 在 如 此 多 不 同 的 层 提 供 安全 性 。-- 个 原因 是 不 同 的 威胁 需要 
不 同 的 防御 措施 ， 并且 这 通常 会 对 应 于 保护 不 同 的 协议 层 。 人 例如， 如果 你 主要 考虑 在 相 邻 
建筑 中 的 一 个 人 宪 探 你 的 笔记 本 电脑 与 802. 11 接 入 点 之 间 的 通信 , 那么， 你 可 能 需要 链 
路 层 安 全 。 然 而 ， 如 果 你 希望 确信 你 连接 到 了 银行 的 网 站 ， 并 且 阻 止 因特网 服务 提供 商 的 
某 个 好 奇 的 雇员 读 取 你 发 送 给 银行 的 所 有 数据 ， 那 么 提供 通信 安全 的 正确 位 置 应 该 是 你 的 
计算 机 与 银行 服务 器 之 间 整 个 通信 信道 的 某 层 ， 如 传输 层 。 情 况 常常 如 此 ， 不 存在 适用 于 
所 有 情况 的 解决 方案 。 

下 面 所 描述 的 安全 协议 都 能 够 改变 所 使 用 的 密码 算法 。 将 安全 系统 设计 为 与 算法 独立 
的 思想 是 非常 好 的 ， 因 为 你 不 知道 什么 时 候 你 最 喜欢 的 密码 算法 会 被 证 明 对 你 的 目标 来 讲 
不 够 安全 。 如 果 你 能 在 不 需要 改变 协议 规范 或 协议 实现 的 情况 下 很 快 地 切换 到 新 算法 ， 这 
将 是 非常 好 的 一 件 事 。 注 意 ， 与 在 不 改变 算法 的 情况 下 改变 密 钥 类 似 ， 如 果 你 的 一 个 密码 
算法 被 发 现 有 缺陷， 而 你 的 整个 安全 体系 结构 不 需要 马上 重新 设计 ， 这 是 极 好 的 。 


8.4.1 和 良好 隐私 (PGP) 


良好 隐私 (Pretty Good Privacy, PGP) 是 一 种 广泛 用 于 电子 邮件 安全 的 方法 。 它 提 
供 了 认证 、 机 密 性 、 数 据 完整 性 和 不 可 否认 性 。PGP 最 早 是 由 Phil Zimmerman 发 明 的 ， 
并 且 已 经 发 展 成 为 IETF 的 标准 ， 称 为 OpenPGP。 正 如 我 们 在 8. 2 节 所 看 到 的 ，PGP 适 
用 于 使 用 “信任 网 络 ” 模 型 来 分 发 密 钥 而 不 是 用 树 型 的 分 层 结构 。 

PGP 的 机 密 性 和 接收 方 认 证 依赖 于 电子 邮件 的 接收 方 拥有 一 个 发 送 者 知道 的 公 钥 。 为 
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了 提供 发 送 方 认证 和 不 可 否认 性 ， 发 送 方 必须 拥有 一 个 接收 者 知道 的 公 钥 。 这 些 公 钥 是 通 
过 8. 2. 1 节 中 描述 的 证 书 和 信任 网 络 PKI 进行 预 分 发 的 。 这 些 证 书 可 以 进一步 指明 支持 哪 
些 密码 算法 或 者 密 钥 拥有 者 推荐 哪些 密码 算法 。 

思考 下 面 的 例子 ，PGP 被 用 于 提供 发 送 方 认证 和 机 密 性 。 假 设 Alice 有 一 条 消息 通过 
电子 邮件 传递 给 Bob. Alice 的 PGP 应 用 程序 执行 图 8-13 所 示 的 步骤。 首先 ，Alice 对 消 
息 进 行 数字 签名 ，MD5、SHA-1 和 SHA-2 协议 族 都 是 可 以 用 于 数字 签名 的 散 列 函数 。 然 
后 ， 她 的 PGP 应 用 程序 为 仅 有 的 这 条 消息 产生 一 个 新 的 会 话 密 钥 ， 所 支持 的 对 称 密 钥 密 
码 包 括 AES 和 3DES。 数 字 签 名 后 的 消息 通过 该 会 话 密 钥 被 加 密 ， 会 话 密 钥 本 身 被 Bob 的 
公 钥 加 密 后 追加 到 消息 后 。Alice 的 PGP 应 用 程序 会 提示 她 以 前 赋 给 Bob 的 公 钥 的 信任 程 
度 ， 这 是 根据 她 所 拥有 的 Bob 的 证 书 的 数量 以 及 对 每 个 证 书 的 签名 者 的 信任 度 来 确定 的 。 
最 后 ， 对 消息 进行 base64 编码 (如 9.1.1 节 所 述 )， 转 换 成 一 种 ASCI 兼容 的 表示 形式 。 
这 不 是 为 了 安全 ， 而 是 因为 电子 邮件 消息 必须 以 ASCII 形式 发 送 。 通 过 电子 邮件 接收 到 
PGP 消息 后 ，Bob 的 PGP 应 用 程序 按 逆序 执行 上 述 过 程 来 得 到 原始 的 明文 消息 ， 并 确认 
Alice 的 数字 签名 一 一 同时 提示 Bob 他 对 Alice 的 公 钥 的 信任 程度 。 


Hi 一 消息 明文 


1) 使 用 Alice 的 私 钥 进行 
数字 签名 


A 
A-B | 2) 使 用 新 产生 的 一 次 会 话 
密 钥 加 密 
Hi... 
A 
A-B | 3 ) 使 用 Bob 的 公 钥 加 密会 
B 话 密 钥 并 附加 地 一 起 
Hi... 
A A-B 


4) 使 用 base 64 编 码 获取 
兼容 的 表示 








base 64 
图 8-13 PGP 准备 由 Alice 通过 电子 邮件 发 送 到 Bob 的 消息 的 步骤 

电子 邮件 有 一 个 不 同 寻 常 的 特性 ， 它 允许 PGP 在 这 个 单条 消息 数据 传输 协议 中 嵌入 

适当 的 认证 协议 ， 从 而 避免 提前 进行 任何 消息 交换 (避免 前 面 在 8. 3 节 中 描述 的 一 些 复 杂 

GYR), Alice 的 数字 签名 足以 认证 她 。 虽 然 无 法 证 明 消息 是 及 时 的 ， 但 传统 的 电子 邮件 也 





不 是 及 时 的 。 另 外 ， 也 无 法 证 明 消 息 是 原始 的 ， 但 Bob 作为 一 个 电子 邮件 用 户 ， 通常 能 够 
从 电子 邮件 副本 中 恢复 信息 〈 这 在 正常 操作 情况 下 也 不 是 不 可 能 的 )。Alice 可 以 确定 只 有 
Bob 能 够 读 取消 息 ， 因 为 会 话 密 钥 是 用 他 的 公 钥 加 密 的 。 虽 然 该 协议 没有 向 Alice 证 明 
Bob 确实 存在 并 收 到 了 电子 邮件 ， 但 从 Bob 回 送 给 Alice 的 经 过 认证 的 电子 邮件 能 够 提供 
证 明 。 

上 述 讨 论 给 出 了 一 个 很 好 的 示例 ， 说 明了 为 什么 应 用 层 安全 机 制 很 有 用 。 只 有 全 面 了 
解 应 用 的 工作 原理 ， 你 才能 做 出 正确 的 选择 ， 即 防御 哪些 攻击 〈 如 伪造 的 电子 邮件 ) 以 及 
忽略 哪些 攻击 〈 如 被 延迟 的 或 被 重 放 的 电子 邮件 )。 


8.4.2 安全 外 壳 (SSH)s 


安全 外 壳 (Secure Shell. SSH) 协议 用 于 提供 一 种 远程 登录 服务 ， 其 目的 是 取代 早期 
在 因特网 上 使 用 的 安全 性 较 差 的 Telnet 和 rlogin 程序 。(SSH 还 能 用 于 远程 执行 命令 和 传 
输 文件 ,分别 与 Unix 的 rsh 命令 和 rcp 命令 类 似 ， 但 我 们 重点 要 关注 的 是 SSH 怎样 支持 
远程 登录 。) SSH 最 常用 的 功能 是 提供 强 客户 端 /服务 玫 认 证 /消息 完整 性 一 一 其 中 SSH 的 
客户 端 运行 在 用 户 的 台式 机 上 ， 而 SSH 的 服务 器 端 运行 在 用 户 想 要 登录 的 某 台 远程 主机 
上 一 一 但 SSH 也 支持 机 密 性 。Telnet 和 rlogin 则 不 提供 任何 这 样 的 功能 .。 注意 . “ SSH” 
既 指 SSH 协议 ， 也 指使 用 SSH 的 应 用 ， 你 需要 从 上 下 文中 区 分 出 指 的 是 什么 。 

为 了 更 好 地 理解 SSH 对 现今 因特网 的 重要 性 ， 考虑 几 个 应 用 SSH 的 场景 。 例 如 ， ie 
程 通勤 人 员 一 般 付 款 给 那些 提供 高 速 电缆 调制 解 调 器 或 DSL 服务 的 ISP. 他 们 通过 这 些 
ISP 或 其 他 ISP 组 成 的 链 来 连接 到 雇主 运行 的 计算 机 。 这 就 意味 着 在 登录 时 .他 们 的 密码 
以 及 他 们 收发 的 数据 很 可 能 穿越 任意 多 个 不 可 信 网 络 。SSH 提供 一 种 方法 来 加 密 在 这 些 
连接 上 发 送 的 数据 以 增加 他 们 登录 时 使 用 的 认证 机 制 的 强度 。SSH 的 一 种 类 似 的 用 法 是 
运程 登录 到 路 由 器 ， 可 能 是 更 改 配置 或 读 取 日 志文 件 。 显 然 ， 网络 管 理 员 希望 确保 他 能 够 
安全 登录 到 路 由 器 ， 并 且 未 授权 实体 既 无 法 登录 ， 也 不 能 截取 发 送 给 路 由 器 的 命令 或 返回 
给 管理 员 的 输出 信息 。 

SSH 的 最 新 版 本 (版 本 2) 由 三 个 协议 组 成 : 

。 SSH-TRANS: 传输 层 协议 。 

。 SSH-AUTH: 认证 协议 。 

。 SSH-CONN: 连接 协议 。 

我 们 关注 前 两 个 协议 ， 它 们 与 远程 登录 有 关 。 我 们 在 本 节 的 最 后 简要 讨论 SSH 一 
CONN 的 用 途 。 

SSH-TRANS 在 客户 端 和 服务 器 之 间 提 供 了 一 条 加 密 信道 。 这 条 信道 运行 在 一 个 
TCP 连接 上 。 当 一 个 用 户 使 用 SSH 登录 一 台 远 程 主机 时 ， 第 一 步 就 是 要 在 两 台 主 机 间 建 
立 一 条 SSH-TRANS 信道 。 两 台 计 算 机 建立 这 条 安全 信道 的 方法 是 先 让 客户 使 用 RSA 认 
证 服务 器 。 认 证 完成 后 ， 客 户 和 服务 器 就 建立 一 个 会 话 密 钥 ， 并 用 这 个 密 钥 加 密 信 道上 发 
送 的 所 有 数据 。 这 种 高 层次 描述 忽略 了 几 个 细节 ， 其 中 包括 这 样 一 个 事实 ，SSH-TRANS 
协议 包含 双方 对 将 要 使 用 的 加 密 算法 的 协商 。 例 如 ， 一 般 会 选择 AES. SSH-TRANS 还 
会 对 信道 上 交换 的 所 有 数据 进行 消息 完整 性 检查 。 





O 参见 “实验 十 三 ”。 
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我 们 不 能 忽略 的 一 个 问题 是 客户 端 如 何 获得 认证 服务 器 所 需 的 服务 器 的 公 钥 。 听 起 
来 可 能 有 些 奇怪 ， 服 务 器 在 连接 时 告诉 客户 端 它 的 公 钥 。 当 客户 首次 连接 到 一 台 特 定 主 
机 时 ，SSH 应 用 程序 告 诚 用 户 他 从 未 同 这 台 主 机 对 过 话 并 询问 用 户 是 否 要 继续 。 尽 管 有 
风险 ， 用 户 还 是 经 常 回 答 “ 是 ”"， 因 为 SSH 应 用 不 能 有 效 认 证 服务 器 。 于 是 SSH 应 用 就 
记 住 服 务 器 的 公 钥 ， 并 在 下 一 次 用 户 连接 到 同一 机 器 时 把 保存 的 密 钥 与 服务 器 回应 的 密 
钥 进 行 比 较 。 如 果 它 们 是 相同 的 ， 服务器 就 通过 SSH 的 认证 。 但 如 果 不 同 ，SSH 会 再 
次 警告 用 户 有 错误 ， 然 后 给 用 户 中 止 连接 的 机 会 。 作 为 奉 代 方法 ， 遵 慎 的 用 户 可 以 通过 
带 外 机 制 来 获得 服务 器 的 公 钥 ， 并 保存 到 客户 端 ， 这 样 就 不 用 冒 “ 首 次 ”连接 的 危险 。 

— H SSH-TRANS 信道 存在 ， 下 一 步 就 是 用 户 实际 登录 到 目标 主机 上 ， 更 确切 地 说 ， 
就 是 让 服务 器 对 用 户 身份 进行 认证 。SSH 允许 通过 三 种 不 同 机 制 来 完成 这 件 事 。 第 一 种 
机 制 ， 因 为 两 台 计 算 机 是 在 一 条 安全 的 信道 上 通信 ， 所 以 用 户 只 要 把 口令 发 送 给 服务 器 即 
可 。 对 于 Telnet 来 说 ， 这 样 做 是 不 安全 的 ， 因 为 口令 是 用 明文 发 送 的 ， 但 在 使 用 SSH 的 
情况 下 ,口令 在 SSH-TRANS 信道 中 是 加 密 的 。 第 二 种 机 制 使 用 公 钥 加 密 ， 这 种 机 制 要 
求 用 户 将 其 公 钥 事先 放 在 服务 器 上 。 第 三 种 机 制 称 为 基于 主机 的 认证 (host-based authen- 
tication) ， 基 本 思想 是 任何 声称 来 自 一 组 可 信和 主机 的 用 户 将 自动 被 认为 是 该 服务 器 上 的 同 
样 的 用 户 。 基 于 主机 的 认证 要 求 客户 主机 Chost) 在 首次 连接 时 向 服务 器 认证 自己 。 标 准 
的 SSH-TRANS 默认 仅 认证 服务 器 。 

通过 这 段 讨 论 ， 你 主要 应 该 明白 SSH 是 我 们 在 本 章 所 见 的 协议 和 算法 的 一 个 比较 
直接 的 应 用 。 然 而 ， 用 户 需要 建立 和 管理 多 个 密 钥 ， 这 有 时 让 SSH 显得 很 难 懂 ， 而 且 
实际 使 用 的 接口 依赖 于 操作 系统 。 例 如 ， 在 大 多 数 Unix 机 上 运行 的 OpenSSH 包 都 支持 
ssh-keygen 命令 ， 用 于 创建 公 钥 / 私 钥 对 。 然 后 这 些 密 钥 被 存储 在 用 户主 目录 下 的 .ssh 
目录 的 不 同文 件 中 。 例 如 ， 文 件 /. ssh/known_hosts 记录 用 户 已 登录 的 所 有 主机 的 密 钥 ， 
文件 /. ssh/ authorized _ keys 包含 用 户 登 录 本 机 时 认证 他 所 需 的 公 钥 〈 即 它们 在 服务 端 
被 使 用 )， 文件 /. ssh/identity 包含 认证 远程 机 器 上 的 用 户 时 震 要 的 私 钥 〈 即 它们 在 客户 
端 被 使 用 ) 。 

最 后 ，SSH 已 被 证 明 是 一 个 保护 远程 登录 安全 的 有 用 系统 ， 它 已 经 被 扩展 以 支持 其 
他 应 用 ， 如 发 送 和 接收 电子 邮件 。 其 思想 是 在 一 条 安全 的 “SSH 隧道 ”上 运行 这 些 应 用 
程序 。 这 种 功能 称 为 端口 转发 (port forwarding)， 它 使 用 的 是 SSH-CONN 协议 。 图 8-14 
展示 了 这 种 思想 ， 我 们 看 到 主机 A 上 的 客户 程序 通过 使 用 一 条 SSH 连接 来 转发 通信 量 ， 
间接 地 与 主机 B 上 的 服务 程序 通信 。 这 种 机 制 称 为 端口 转发 是 因为 当 消息 到 达 服 务 器 上 的 
知名 SSH 端口 时 ，SSH 首先 把 内 容 解密 ， 然 后 把 数据 转发 到 服务 器 实际 监听 的 端口 上 。 
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这 仅 是 另外 一 种 隧道 ， 即 3. 2. 9 节 中 介绍 的 类 型 ， 在 本 例 中 提供 了 机 密 性 和 认证 ， 以 这 种 
方法 使 用 隧道 可 以 提供 一 种 虚拟 专用 网 络 (Virtual Private Network, VPN), 


8.4.3 传输 层 安 全 (TLS, SSL, HTTPS) 


为 了 了 解 IETF 正在 开发 的 传输 层 安 全 (Transport Layer Security. TLS) 标准 以 及 
TLS 的 基础 安全 套 接 字 层 (Secure Socket Layer, SSL) 的 设计 目标 和 需求 ， 考 虑 它 要 解 
决 的 主要 问题 之 一 是 有 帮助 的 。 当 WWW 流行 起 来 而 且 商 业 企 业 开 始 对 它 感 兴趣 时 ， 很 
显然 ， 对 于 Web 上 的 交易 ， 某 些 安全 等 级 将 是 必 不 可 少 的 。 这 种 情况 的 典型 例子 是 通过 
信用 卡 购物 。 当 你 把 信用 卡 信 息 发 送 到 Web 上 的 一 台 计 算 机 时 需要 考虑 几 个 问题 。 首 先 ， 
你 可 能 会 担心 信息 在 传输 中 被 截获 ， 并 被 他 人 用 于 非法 购物 。 你 也 许 还 担心 交易 的 有 关 细 
节 被 修改 ， 如 改变 购买 数量 。 而 且 你 一 定 想 知 道 信 用 卡 信息 到 达 的 计算 机 是 属于 商家 的 计 
算 机 而 不 是 其 他 什么 人 的 计算 机 。 这 样 ， 我 们 立即 看 到 Web 交易 对 机 密 性 、 完 整 性 和 认 
证 的 需求 。 对 这 个 问题 的 第 一 个 广泛 使 用 的 解决 方法 是 SSL， 最 初 是 由 Netscape 开发 的 ， 
后 来 成 为 IETF 的 TLS 标准 的 基础 。 

SSL 和 TLS 的 设计 者 认识 到 这 些 问题 并 非 Web 交易 〈 即 那些 使 用 HTTP 的 应 用 ) 所 
特有 的 ， 因 而 要 在 应 用 协议 〈 例 如 HTTP) 和 传输 协议 〈 例 如 TCP) 之 间 建 立 一 个 通用 
的 协议 。 将 这 个 协议 称 为 “传输 层 安 全 ”的 原因 在 于 , A WO 





应 用 的 观点 看 ， 这 个 协议 层 看 起 来 就 像 一 个 普通 的 传输 协 Er 
议 ， 只 是 它 是 安全 的 。 也 就 是 说 ， 发 送 方 可 以 打开 连接 并 ”一 icp 一 | 
发 送 要 传输 的 字 节 ， 而 安全 传输 层 就 会 把 它们 传送 给 接收 全 | 
方 ， 并 保证 必需 的 机 密 性 、 完 整 性 和 认证 。 在 TCP 上 通 | TM 

过 运行 安全 传输 层 ，TCP 的 所 有 一 般 特 性 〈 可 靠 性 、 流 量 eis 应 用 层 与 TCP 层 之 间 
控制 、 拥 塞 控制 等 ) 也 会 被 提供 给 应 用 程序 。 图 8-15 描述 插入 的 安全 传输 层 

了 协议 层 的 布局 。 


当 以 这 种 方式 使 用 HTTP 时 ， 它 被 称 为 是 HTTPS (安全 的 HTTP)。 事 实 上 ，HT- 
TP 本 身 无 变化 。 它 简单 地 把 数据 传递 到 SSL/TLS 层 或 从 SSL/TLS 层 接收 数据 ， 而 不 是 
在 TCP 层 。 为 方便 起 见 ， 为 HTTPS 分 配 了 默认 的 TCP 端口 443。 就 是 说 ， 如 果 你 试图 
连接 到 一 台 服 务 器 的 TCP 端口 443， 可 能 会 发 现 你 正 与 SSL/TLS 协议 会 话 ， 只 要 能 顺利 
进行 认证 和 解密 ， 它 就 会 将 数据 传 给 HTTP。 虽 然 存 在 独立 的 SSL/TLS 实现 ， 但 更 常见 
的 实现 方法 是 与 需要 它 的 应 用 绑 定 ， 主 要 是 Web 浏览 器 。 

在 下 面 的 关于 传输 层 安 全 的 讨论 中 ,我 们 关注 TLS. RM SSL A TLS AE AIA 
能 互 操 作 ， 但 只 在 很 小 的 方面 有 差别 ， 因 此 几乎 对 TLS 的 所 有 描述 都 适用 于 SSL, 

1. 握手 协议 

一 对 TLS 参与 者 在 运行 过 程 中 协商 要 使 用 的 密码 算法 。 参 与 者 对 如 下 选择 进行 协商 : 

。 数据 完整 性 散 列 (MD5 或 SHA-1 等 )， 用 于 实现 HMAC, 

。 用 于 保密 的 对 称 密 钥 密码 (可 能 的 选择 有 DES, 3DES 和 AES.,). 

。 会 话 密 钥 建立 方法 (可 能 的 选择 有 Diffie Hellman, f€i1E A Diffie-Hellman 和 使 用 

RSA 或 DSS 的 公 钥 认证 协议 。) 
有 趣 的 是 ， 握 手 协议 还 可 以 协商 使 用 压缩 算法 ， 不 是 因为 它 能 提供 安全 性 方面 的 好 








处 ， 而 是 因为 在 你 进行 其 他 协商 时 很 容易 实现 压缩 算法 协商 ， 并 且 你 已 经 决定 对 数据 进行 
一 些 开 销 较 大 的 以 字 节 为 单位 的 操作 。 

在 TLS 中 ,保密 密码 使 用 两 个 密 钥 ， 每 个 方向 一 个 ， 类 似 地 也 需要 两 个 初始 向 量 。 
H, HMAC 为 两 个 参与 者 使 用 不 同 的 密 钥 。 这 样 ， 无 论 选 择 什么 密码 和 散 列 函数 ， 一 
个 TLS 会 话 都 需要 六 个 密 钥 。TLS 从 一 个 共享 的 主 密 钥 (master key) 中 推导 出 所 有 密 
钥 。 主 密 钥 是 一 个 384 位 〈48 字 节 ) 的 值 ， 则 是 部 分 地 由 TLS 会 话 密 钥 建立 协议 产生 的 
“会 话 ” 密 钥 中 推导 出 来 的 。 

TLS 中 协商 选项 和 建立 共享 主 秘密 的 部 分 称 为 握手 协议 (handshake protocol), (SE 
际 的 数据 传输 是 由 TLS 的 记录 协议 (record protocol) 完成 的 ) 。 握 手 协 议 本 质 上 是 一 个 
会 话 密 钥 建立 协议 ， 它 建立 一 个 主 秘密 而 不 是 会 话 密 钥 。TLS 支持 对 会 话 密 钥 建立 方法 的 
选择 。 这 些 都 需要 相应 的 不 同 协议 。 另 外 ， 握 手 协议 支持 选择 两 个 参与 者 的 相互 认证 、 仅 
对 单个 参与 者 的 认证 〈 这 是 最 常见 的 情况 ， 例 如 ， 认 证 一 个 Web 站 点 而 不 是 用 户 ) 或 者 
无 认证 (匿名 Diffie-Hellman)。 这 样 ， 握 手 协议 就 把 几 个 会 话 密 钥 建立 协议 交织 在 一 个 协 
议 中 。 

图 8-16 显示 了 握手 协议 的 高 层 描述 。 客 户 首先 发 送 一 个 它 所 支持 的 密码 算法 组 合 的 
列表 ， 以 偏好 递减 的 顺序 排列 。 服 务 器 返回 它 从 客户 列表 中 选择 的 一 个 密码 算法 组 合 。 这 
些 消息 还 包含 一 个 客户 当前 值 (client-nonce) 和 一 个 
服务 器 当前 值 (server-nonce)， 当 前 值 将 被 用 于 以 后 
产生 主 秘密 。 

到 此 ， 协 商 阶 段 结束 。 现 在 服务 器 根据 所 协商 的 
会 话 密 钥 建 立 协议 发 送 其 他 消息 。 这 可 能 包括 发 送 一 
个 公 钥 证 书 或 者 一 组 Diffie 一 Hellman 参数 。 如 果 服 
务 器 要 求 认 证 客户 ， 它 就 会 发 送 一 个 单独 的 消息 来 说 
明 这 一 点 。 然 后 ， 客 户 用 所 协商 的 密 钥 交换 协议 的 相 
应 部 分 作为 响应 。 

现在 ， 客 户 和 服务 器 都 拥有 了 产生 主 秘密 所 必需 
的 信息 。 它 们 所 交换 的 会 话 密 钥 事实 上 并 不 是 一 个 密 
钥 ， 而 是 TLS 中 所 谓 的 预 主 秘密 (pre-master se- 
cret) 。 主 秘密 是 由 预 主 秘密 、 客 户 当 前 值 和 服务 器 
当前 值 计 算得 出 的 (使 用 一 个 公开 的 算法 )。 然 后 ， 
客户 用 从 主 秘密 推导 出 的 密 钥 发 送 一 条 消息 ， 它 包含 
了 前 面 所 有 握手 消息 的 散 列 值 ， 服 务 器 会 以 一 条 类 似 
的 消息 作为 响应 。 这 使 得 它们 能 够 检测 到 所 发 送 的 消 
息 与 接收 到 的 握手 消息 之 间 的 任何 区 别 ， 例 如 ， 一 个 





中 间 人 攻击 通过 修改 初始 的 未 加 密 客 户 消息 来 减弱 对 | "T | 
密码 算法 的 选择 ， | FN ast | 
| | 

2. 记录 协议 | : 


在 用 握手 协议 建立 的 会 话 中 ，TLS 的 记录 协议 | 
为 下 层 的 传输 服务 增加 了 机 密 性 和 完整 性 。 从 应 用 层 ” 图 8-16 用 于 建立 TLS 会 话 的 握手 协议 





向 下 传递 的 消息 : 

1) 为 执行 后 续 步 又 将 消息 分 段 或 合并 成 适当 大 小 的 块 。 

2) 压缩 (可 选 )。 

3) 使 用 HMAC 保护 完整 性 。 

4) 使 用 对 称 密码 加 密 。 

5) 被 传送 到 传输 层 (一 般 是 TCP)， 进 行 传输 。 

记录 协议 使 用 一 个 HMAC 作为 认证 码 。HMAC 使 用 参与 者 协商 的 任何 散 列 函 数 
(MD5 或 SHA-1 等 )。 在 计算 HMAC 时 ， 客 户 和 服务 器 使 用 不 同 的 密 钥 ,这 使 得 破解 更 
加 困难 。 另 外 ,每 条 记录 协议 消息 被 分 配 一 个 序列 号 ， 计 算 HMAC 时 将 该 序列 号 包括 在 
内 ， 但 该 序列 号 并 不 显 式 地 出 现在 消息 中 。 这 个 隐 仿 的 序列 号 能 够 防止 消息 重 放 或 重 排 
序 。 这 一 点 是 需要 的 ， 因 为 虽然 TCP 保证 了 正常 情况 下 没有 重复 消息 . 但 没有 考虑 能 够 
截获 消息 并 发 送 伪造 消息 的 攻击 者 。 另 一 方面 ，TCP 的 确保 传输 使 得 TLS 可 以 依赖 拥有 
下 一 个 隐 含 序列 号 的 合法 TLS 消息 实现 按 序 传 输 。 

TLS 协 议 的 另 一 个 对 Web 交易 相当 有 用 的 有 趣 特 性 是 恢复 会 话 的 功能 。 为 了 了 解 这 
种 功能 的 动机 ， 理 解 HTTP 如 何 使 用 TCP 连接 是 有 帮助 的 CHTTP 的 细节 在 9. 1. 2 节 给 
tH). + HTTP 操作 ， 如 从 服务 器 获取 文本 网 页 或 图 像 ， 都 需要 打开 一 个 新 的 TCP 连 
接 。 获 取 有 许多 艇 人 图 形 对 象 的 单个 页 面 会 占用 许多 TCP 连接 。 回 想 一 下 5.2 节 ， 数 据 
开始 传输 之 前 打开 TCP 连接 需要 三 次 握手 。 一 旦 TCP 连接 准备 接收 数据 ， 客 户 就 需要 启 
动 TLS 握手 协议 ， 应 用 程序 数据 真正 发 送 前 会 话 至 少 还 要 两 个 RTT (并 消耗 一 些 处 理 资 
源 和 网 络 带 宽 )。TLS 的 恢复 功能 可 缓解 这 个 问题 。 

会 话 恢复 是 对 握手 的 一 种 优化 ， 可 以 用 在 客户 和 服务 器 已 经 建立 了 一 些 共 享 状态 的 情 
况 下 。 客 户 简单 地 在 初始 握手 消息 中 包含 以 前 所 建立 会 话 的 会 话 ID。 如 果 服 务 器 发 现 它 
仍然 有 那个 会 话 的 状态 ， 并 且 在 会 话 建立 时 协商 使 用 恢复 选项 ， 那 么 服务 器 就 可 以 用 一 个 
成 功 的 指示 响应 客户 ， 然 后 使 用 先前 协商 的 算法 和 参数 开始 数据 传输 。 如 果 会 话 ID 不 与 
服务 器 缓存 的 任何 会 话 状态 相 匹 配 ， 或 者 如 果 不 允 许 恢 复 会 话 ， 那么 服务 器 就 会 返回 到 标 
准 的 握手 过 程 。 


8.4.4 IP #4 (IPsec) 


也 许 将 安全 性 集成 到 因特网 中 的 最 具 雄 心 的 工作 发 生 在 IP 层 。 这 种 体系 结构 称 为 IP- 
sec, X} IPsec 的 支持 在 IPv4 中 是 可 选 的， 但 在 IPv6 中 必须 支持 。 

IPsec 的 确 是 能 够 提供 本 章 讨论 的 所 有 安全 服务 的 框架 〈 与 单个 协议 或 系统 相反 ) 。 
IPsec 提供 三 个 自由 度 等 级 。 第 一 ， 它 是 高 度 模块 化 的 ， 人 允许 用 户 (或 更 可 能 是 系统 管理 
R) 从 各 种 加 密 算法 和 专用 安全 协议 中 进行 选择 。 第 二 ，IPsec 允许 用 户 从 一 个 大 的 安全 
服务 菜单 中 进行 选择 ， 包 括 访问 控制 、 完 整 性 、 认 证 、 原 始 性 和 机 密 性 。 第 三 ，IPsec 可 
以 用 来 保护 “ 窗 小 ”的 流 〈 比 如 在 一 对 主机 间 发 送 的 属于 特殊 TCP 连接 的 分 组 ) 或 “ 宽 
大 ”的 流 〈 比 如 一 对 路 由 器 之 间 流 过 的 所 有 分 组 ) 。 

从 高 层 看 ，IPsec 包括 两 部 分 。 第 一 部 分 是 实现 可 用 的 安全 服务 的 一 对 协议 。 它 们 是 
提供 访问 控制 、 无 连接 消息 完整 性 、 认 证 和 反 重 发 保护 的 认证 首部 (Authentication 
Header, AH) 以 及 同样 支持 这 些 服务 再 加 上 机 密 性 的 封装 安全 有 效 载 荷 (Encapsulating 
Security Payload，ESP) 。 因 为 AH 很 少 使 用 ， 因 此 我 们 在 此 重点 讨论 ESP。 第 二 部 分 是 














对 密 钥 管理 的 支持 ， 它 置身 于 所 谓 的 因特网 安全 关联 和 密 钥 管理 协议 (Internet Security 
Association and Key Management Protocol, ISAKMP) 的 保护 之 下 。 

把 这 两 部 分 绑 定 在 一 起 的 抽象 就 是 安全 关联 (Security Association, SA), SABRBA 
一 个 或 多 个 可 用 安全 特性 的 单 工 〈 单 向 ) 连接 ， 保 护 一 对 主机 间 的 双向 通信 ， 例 如 对 应 一 
个 TCP 连接 ， 需 要 两 个 安全 关联 ， 每 个 方向 有 一 个 安全 关联 。 虽 然 IP 是 一 个 无 连接 协 
议 ， 但 其 安全 性 依赖 于 连接 状态 信息 ， 如 密 钥 和 序列 号 。 在 创建 SA 时 ， 由 接收 方 的 计算 
机 为 其 指定 一 个 安全 参数 索引 (Security Parameters Index，SPI) 。 这 个 SPI 和 目标 IP 地 
址 的 组 合 唯一 标识 一 个 SA。ESP 首部 包含 SPI， 以 便 使 接收 方 主机 能 确定 输入 分 组 属于 
哪个 SA， 进而 确定 对 分 组 用 什么 算法 和 密 钥 。 

SA 的 建立 、 协 商 、 修 改 和 删除 是 通过 ISAKMP 实现 的 。 它 定义 了 交换 密 钥 生 成 和 认 
证 数据 的 分 组 格式 。 这 些 格式 并 非 很 有 用 ， 因 为 它们 只 提供 一 个 框架 ， 确 切 的 密 钥 和 认证 
数据 的 格式 取决 于 所 使 用 的 密 钥 生成 技术 、 密 码 算法 和 认证 机 制 。 此 外 ， 尽 管 ISAKMP 
建议 将 因特网 密 钥 交换 (nternet Key Exchange, IKE) 作为 一 个 可 能 的 协议 ， 并 且 IKE 
也 是 实际 中 使 用 的 协议 ， 但 它 并 不 指定 特定 的 密 钥 交换 协议 。 

ESP 是 用 于 在 已 建立 的 SA 上 安全 地 传输 数据 的 协议 。 在 IPv4 H, ESP 首部 跟 在 IP 
首部 之 后 ; 在 IPv6 中 ， 它 是 一 个 扩展 首部 。 其 格式 使 用 一 个 首部 和 一 个 尾部 ， 如 图 8-17 
所 示 。SPI 字段 帮助 接收 方 主机 识别 分 组 所 属 的 安全 关联 。SeqNum (序号 ) 字段 防止 重 
发 攻击 。 分 组 的 PayloadData (有 效 载荷 数据 ) 字段 包含 由 NextHdr (下 一 个 首部 ) FR 
描述 的 数据 。 如 果 选 择 保密 ， 那 么 就 用 与 SA 关联 的 任何 算法 加 密 数 据 。PadLength GE 
充 长 度 ) 字段 记录 给 数据 加 入 多 少 填充 。 填 充 有 时 是 必要 的 ， 例 如 ， 因 为 加 密 算 法 要 求 明 
文 是 某 个 字 节 数 的 倍数 ， 或 确保 结果 密 文 以 4 字 节 边界 结束 。 最 后 ，AuthenticationData 
(认证 数据 ) 包含 认证 码 。 






e aa 
=. aes 
有 效 载荷 数据 
“填充 (0-255 字 节 ) SS” 
上 填充 长 度 | 下 一 个 首部 _ 
认证 数据 


= 
| 


图 8-17 IPsec 的 ESP 格式 


IPsec 支持 隧道 模式 (tunnel mode)， 也 支持 一 种 更 直接 的 传输 模式 (transport 
mode)。 每 个 SA 工作 在 其 中 的 一 种 模式 下 。 在 传输 模式 SA P, ESP 的 载荷 数据 被 简单 
地 作为 像 UDP 或 TCP 一 样 的 高 层 数 据 。 在 这 种 模式 下 ，IPsec 作为 一 个 中 间 协 议 层 ， 很 
像 SSL/TLS 在 TCP 与 高 层 协议 之 间 的 作用 。 当 接收 到 ESP 消息 后 ， 它 的 载荷 被 传送 到 
高 层 协议 。 

然而 ， 在 隧道 模式 SA 中 ，ESP 的 载荷 数据 本 身 就 是 一 个 IP 分 组 ， 如 图 8- 18 所 示 。 
内 部 IP 分 组 的 源 地 址 和 目的 地 址 可 能 与 外 层 的 IP 分 组 不 同 。 当 接收 到 ESP 消息 时 ， 它 的 
载荷 被 当 作 一 个 正常 的 IP 分 组 转发 。 使 用 ESP 的 最 常见 的 方式 是 在 两 台 路 由 器 (典型 情 
况 是 防火 墙 ) 之 间 建 立 一 个 “IPsec 隧道 ?>。 例 如 ， 一 个 公司 希望 使 用 因特网 连接 两 个 站 
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点 ， 在 一 个 站 点 的 路 由 器 与 另 一 个 站 点 的 路 由 器 之 间 打 开 一 对 隧道 模式 SA， 就 像 3. 2.9 


节 描 述 的 那样 。 从 一 个 站 点 发 出 的 IP 分 组 在 发 送 路 由 器 上 成 为 发 送 给 另 一 台 路 由 器 的 一 
条 ESP 消息 的 载荷 。 接 收 路 由 器 会 拆 开 IP 分 组 的 载 符 ， 并 转发 到 直 正 的 目的 地 。， 


ESP 有 效 载 信 _ 


a = 
a N 





| Pei 则 ,目的 地 = abe a] ESP 首 部 Ë 内 部 中 分 组 ， 目的 地 =wxyz | ESP HEM | 


网 8-18 fa ai 用 隧道 模式 ESP 加 密 的 IP 分 组 的 IP 分 组 
， 内 层 分 组 和 外 层 分 组 县 有 不 同 的 地 址 


这 些 隧道 也 可 以 配置 为 使 用 ESP 来 提供 机 密 性 和 认证 ， 从 而 防止 对 跨越 该 虚拟 链接 
的 数据 的 非 授 权 访问 ， 并 确保 隧道 的 另 一 端 不 会 接收 到 伪造 的 数据 。 另 外 ， 隧 道 能 够 提供 
流量 机 密 性 ， 因 为 多 个 数据 流通 过 单个 联 道 会 使 得 两 个 特定 端点 间 传 并 a ee 
模糊 。 这 种 隧道 组 成 的 网 络 能 够 用 于 实现 一 个 完整 的 虚拟 专用 网 络 (VPN， 见 3.2.9 节 )。 
在 VPN 上 通信 的 主机 甚至 不 需要 知道 VPN 的 存在 。 


8.4.5 无 线 安全 (802. 11i) 


由 TU 方面 缺少 任何 物理 安全 措施 ， 所 以 无 线 链 路 〈 见 2.7 节 ) 是 非常 容易 受到 安 
全 威胁 的 。 虽 然 802. 11 的 便捷 使 得 无 线 技 术 得 到 广泛 支持 ， 但 缺乏 安全 性 是 一 个 经 常 遇 
到 的 问题 。 因 为 无 线 电波 能 够 穿越 大 部 分 墙壁 ， 如 果 无 线 接 入 点 缺少 安全 措施 ， 那 么 攻击 
者 就 能 在 办 公 楼 外 访问 公司 网 络 。 与 此 类 似 ， 办公 楼 内 党 有 无 线 网 络 适 配器 的 计算 机 也 可 
以 连接 到 办 公 楼 外 ， 并 有 可 能 遭 到 攻击 ， 而 如 果 该 计算 机 有 一 个 以 太 网 连接 ， 那 么 公司 网 
络 中 的 其 他 计算 机 也 可 能 会 遭 到 攻击 。 

因此 ， 保 护 无 线 链 路 的 安全 需要 做 相当 多 的 工作 。 令 人 惊讶 的 是 用 于 802.11 的 早 
期 安全 技术 之 一 ， 有 线 等 效 隐 私 (Wired Equivalent Privacy, WEP) 被 发 现 有 严重 缺陷 
并 且 很 容易 被 攻破 。 

IEEE 802. 11i 标准 在 链 路 层 为 802. 11 (Wi-Fi) 提供 了 认证 、 消 息 完 整 性 和 机 密 性 。 
Wi-Fi 保护 接 入 2 (Wi-Fi Protected Access 2. WPA2) 经 常 作 为 802.11i 的 同义词 ， 但 
是 ， 从 技术 上 来 讲 ，WPA2 是 认证 符合 802. 41 产品 的 Wi 一 Fi 联盟 商标 。 

为 了 向 后 兼容 ，802. 11i 包括 了 第 一 代 安 全 算法 的 定义 一 一 包括 WEP- MEC A A 
道 这 些 算 法 有 严重 的 安全 缺陷 。 我 们 在 这 里 关注 802. 11i 的 新 的 更 健壮 的 算法 。 

802. 11i 认证 支持 两 种 模式 。 对 每 一 种 模式 ， 认 证 成 功 的 最 终结 果 是 一 个 共享 的 主 密 
钥 对 。 个 人 模式 (personal mode) 也 称 为 预 共 享 密 钥 模 式 (preshared key mode, PSK), 
提供 了 较 弱 的 安全 性 ， 但 对 于 像 家 庭 802. 11 网 络 这 样 的 环境 来 说 更 方便 且 更 经 济 。 无 线 
设备 和 接 人 点 CAP) 被 预先 配置 一 个 共享 的 密码 短语 口令 (passphrase) 本 质 上 是 一 
个 非常 长 的 口令 ， 通过 密码 学 方式 从 该 口令 可 推导 出 主 密 钥 。 

802. 11i 的 更 强 的 认证 模式 基于 IEEE 802. 1X 局 域 网 访问 控制 框架 ， 它 使 用 了 一 台 认 
证 服务 器 (AS)， 如 图 8-19 所 示 。AS 和 AP 必须 通过 安全 信道 相连 ， 甚 至 可 以 在 同一 
主机 上 ， 但 它们 在 逻辑 上 是 分 离 的 。AP 在 无 线 设备 与 AS 之 间 转 发 认证 消息 。 用 于 认证 
的 协议 是 可 扩展 认证 协议 (Extensible Authentication Protocol. EAP), EAP 支持 多 种 认 
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证 方法 一 一 智能 卡 、Kerberos、 一 次 性 口令 、 公 钥 认 证 等 一 一 以 及 单方 认证 和 双方 认证 。 
因此 ， 与 其 说 EAP 是 一 个 协议 ,不 如 说 它 是 一 个 认证 框架 。 大 量 与 EAP 兼容 的 协议 称 为 
EAP 方法 (EAP methods). 例如 ，EAP-TLS 就 是 一 个 基于 TLS 认证 的 EAP 方法 ( 见 
8.4.3 节 ) 





无 线 : 可 扩展 认证 
连接 = 协议 (EAP) 


认证 服务 器 
(AS ) 


图 8-19 在 802.11i 中 使 用 认证 服务 器 


802. 11i 对 于 将 什么 EAP 方法 作为 认证 基础 没有 做 任何 限制 。 然 而 ， 它 的 确 要 求 一 种 
能 实现 双向 (mutual) 认证 的 EAP 方法 ， 因 为 我 们 不 但 要 防止 攻击 者 通过 我 们 的 AP 访 
问 网 络 . 而 且 希 望 防止 攻击 者 用 一 个 伪造 的 恶意 AP 愚弄 我 们 的 无 线 设备 。 成 功 认 证 的 最 
终结 果 是 无 线 设备 与 AS 之 间 共 享 的 主 密 钥 对 ， 然 后 AS 把 这 个 密 钥 传递 给 AP. 

较 健壮 的 基于 AS 的 模式 与 较 弱 的 个 人 模式 之 间 的 主要 区 别 之 一 是 前 者 很 容易 支持 每 
个 客户 有 一 个 唯一 密 钥 。 这 就 使 得 更 改 能 够 月 认证 的 客户 集 〈 例 如 ， 撤销 对 一 个 客户 的 访 
问 ) 变 得 更 容易 ， 不 需要 改变 存储 在 每 个 客户 端的 秘密 信息 。 

有 了 主 密 钥 对 以 后 ， 无 线 设备 和 AP 执行 一 个 称 为 四 次 握手 的 会 话 密 钥 建立 协议 来 建 
立 短期 密 钥 对 。 这 个 短期 密 钥 对 实际 上 是 一 个 密 钥 集合 ， 其 中 包括 称 为 临时 密 钥 tempo- 
ral key) 的 会 话 密 铀 。 会 话 密 钥 被 协议 CCMP 使 用 ， 为 802. 11i 提供 数据 保密 和 完整 性 。 

CCMP 代表 使 用 带 有 消息 认证 码 的 密码 分 组 链接 CCipher-Block Chaining with Mes- 
sage Authentication Code, CBC-MAC) 协议 的 CTR (计数 器 模式 )。CCMP 使 用 计数 器 
模式 的 AES 进行 加 密 来 提供 机 窗 性 。 回 忆 一 下 计数 器 模式 加 密 ， 来 自 计 数 器 的 连续 值 被 
集成 到 连续 明文 块 的 加 密 中 〈 见 8. 1.1 节 )。 

CCMP 使 用 一 个 消息 认证 码 (MAC) 作为 认证 码 。 虽 然 CCMP 在 机 密 性 加 密 时 不 使 
用 CBC, 该 MAC 算法 是 基于 CBC (W 8.1.1 节 ) WY. 事实 上 ， 在 执行 CBC 时 ， 不 传输 
任何 CBC 加 密 块 ， 而 只 是 将 最 后 一 个 CBC 加 密 块 作为 MAC (实际 上 只 使 用 它 的 前 8 个 字 
节 )。 初 始 向 量 是 由 特殊 构造 的 第 一 个 块 充当 的 ， 该 块 包含 一 个 48 位 的 分 组 号 (这 个 分 组 
号 也 用 于 机 密 性 加 密 以 及 抵抗 重 放 攻击 ) 一 个 序列 号 。 然 后 ，MAC 和 明文 一 起 被 加 
密 以 便 抵抗 生日 攻击 ， 生 日 攻击 依赖 于 找到 具有 相同 认证 码 的 不 同 消息 ( 见 8.1.4 节 )。 
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8.5 防火 墙 

虽然 本 章 的 大 部 分 内 容 集中 在 使 用 密码 学 来 提供 诸如 认证 和 机 密 性 等 安全 特性 ， 但 存 
在 很 多 无 法 用 密码 学 方法 解决 的 安全 问题 。 例 如 ， 蜂 和 和 病毒 通过 利用 操作 系统 及 应 用 程 
序 的 错误 (有 时 是 利用 人 类 容易 受骗 的 弱点 ) 来 传播 ， 没 有 多 少 密码 学 方法 能 够 帮助 没有 
对 漏洞 打 补 丁 的 计算 机 。 因 此 ， 需 要 经 常 使 用 其 他 方法 来 阻止 不 同形 式 的 潜在 有 害 流量 . 
防火 墙 是 最 常见 的 方法 之 一 。 

防火 墙 是 一 种 处 在 它 所 保护 的 站 点 与 网 络 其 他 部 分 之 间 的 菜 个 点 上 的 系统 ， 如 图 8-20 


所 示 。 它 通常 是 作为 一 台 “ 设 备 ” 或 路 由 器 的 一 部 分 来 实现 的 ， 虽 然 “ 个 人 防火 墙 ” 可 以 
在 终端 用 户 计算 机 上 实现 。 基 于 防火 墙 的 安全 依赖 于 防火 墙 是 从 外 部 接 入 站 点 的 唯一 连接 


点 ,通过 其 他 网 关 、 无 线 连 接 或 拨号 连接 来 觉 路 防火 墙 是 不 可 能 的 。 在 网 络 环境 中 用 
“ 墙 ”来 做 比喻 有 些 误导 ， 因 为 有 大 量 流量 穿 过 防火 墙 。 一 种 理解 防火 墙 的 方法 是 它 在 点 
认 情 况 下 阻止 流量 ， 除 非 该 流量 被 专门 允许 通过 。 例 如 ， 它 可 能 会 过 滤 掉 所 有 到 达 特 定 IP 
地 址 或 特定 TCP 端口 号 的 输入 消息 。 


防火 墙 








远程 的 公司 用 户 
\ 因特网 
从 司 站 点 
随机 的 外 部 用 户 公司 站 点 


图 8-20 ”防火墙 过 滤 站 点 与 因特网 其 他 部 分 之 间 的 分 组 


事实 上 ， 防 火 墙 将 网 络 划 分 为 一 个 较 可 信 的 区 域 和 一 个 不 太 可 信 的 区 域 3 这 对 于 不 想 
让 外 部 用 户 访 问 站 点 内 部 一 个 特定 的 主机 或 服务 的 情况 是 有 用 的 。 而 问题 的 复杂 性 来 自 于 
你 希望 允许 不 同 的 外 部 用 户 使 用 不 同 的 访问 ， 外 部 用 户 的 范围 从 一 般 公 共用 户 到 业务 合作 
伙伴 到 组 织 内 的 远程 成 员 。 防 火 墙 还 可 以 对 外 出 的 流量 施加 限制 ， 以 便 预防 一 些 攻 击 ， 并 
且 当 攻击 者 成 功 获得 防火 墙 内 的 访问 权 后 限制 造成 的 损失 。 

防火 墙 可 以 用 于 创建 多 个 信任 区 域 (zones of trust) ， 就 像 一 个 信任 度 逐 渐 增 加 的 信 
任 区 域 组 成 的 层次 结构 。 一 种 常见 的 布局 包括 三 个 信任 区 域 : 内 部 网 络 、DMZ ( 非 军事 
K) 以 及 因特网 的 其 他 部 分 。DMZ 用 于 放置 供 外 部 访问 的 服务 ， 如 DNS 和 电子 邮件 服务 
器 。 内 部 网 络 和 外 部 网 络 都 可 以 访问 DMZ， 但 DMZ 中 的 主机 不 能 访问 内 部 网 络 。 因 此 ， 
如 果 攻 击 者 成 功 攻击 了 DMZ 中 的 一 台 主 机 ， 他 们 依然 不 能 访问 内 部 网 络 。DMZ 可 以 定期 
重 装 ， 以 便 维持 “干净 ”状态 。 





O 防火 墙 的 位 置 通常 也 是 全 局 可 寻 址 区 域 与 使 用 本 地 地 址 的 区 域 之 间 的 分 界线 。 因 此 ， 网 络 地 址 转换 CNet- 
work Address Translation, NAT, W 4. 1.3 节 ) 功能 和 防火 墙 功 能 通常 都 能 在 同一 设备 中 找 天 ,虽然 它们 在 
逻辑 上 是 分 离 的 ， 
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防火 墙根 据 IP、TCP 和 UDP 等 信息 进行 过 滤 ， 配 置 过 程 使 用 一 个 能 表示 要 转发 和 不 
转发 分 组 特点 的 地 址 表 。 但 就 地 址 而 言 ， 我 们 不 仅仅 是 指 目标 IP 地 址 ， 虽 然 这 是 一 种 可 
能 性 。 通常 ， 表 中 的 每 一 条 记录 是 一 个 4 元 组 : 它 给 出 源 和 目标 的 IP 地 址 以 及 TCP (或 
UDP) 端口 号 

例如 ， 一 个 防火 墙 可 以 被 配置 成 过 滤 掉 〈 不 转发 ) 与 下 列 描述 匹配 的 所 有 分 组 : 

<192. 12.13.14, 1234, 128. 7.6.5, 80> 

个 模式 指出 过 滤 掉 从 地 址 为 192. 12.13. 14 的 主机 的 1234 端口 发 送 到 主机 128. 7.6.5 的 
oa (端口 80 是 众所周知 的 用 于 HTTP 的 TCP 端口 。) 当然 ， 列 出 每 个 
ea MU, 模式 可 以 包含 通配符 。 例 如 ， 

<«, *, 128.7.6.5,80> i 

Ait ch ue AK FI) 128.7.6.5 上 80 端口 的 所 有 分 组 ， 不管 是 什么 源 主机 或 端口 发 送 的 分 组 。 
TERE. 像 这 些 地 址 模式 要 求 防 火 墙 除了 基于 第 三 层 的 主机 地 址 外 ， 还 要 基于 第 四 层 的 端口 
号 做 出 转发 /过 滤 的 决定 ， 因 此 网 络 层 防火 墙 有 时 也 称 为 第 四 层 交 换 机 (level 4 switches). 

在 前 面 的 讨论 中 ， 防 火 墙 会 转发 所 有 分 组 ， 除 非 被 特别 设置 为 过 滤 掉 某 类 分 组 。 防 火 
墙 也 可 以 过 滤 掉 所 有 分 组 ,除非 被 显 式 设置 为 转发 该 分 组 。 也 可 以 混合 使 用 这 两 种 策略 。 
例如 ,防火墙 可 以 被 设置 为 只 允许 访问 在 一 个 特定 邮件 服务 器 上 的 25 端口 (SMTP 邮件 
端口 )， 而 不 是 阻塞 访问 128.7.6.5 主机 上 的 80 端口 ， 例 如 ， 

<*, *, 128.19. 20. 21,25> 
但 要 阻塞 所 有 其 他 通信 量 。 经 验 表 明 ， 防火 墙 经 常会 设置 错误 ， 而 允许 不 安全 的 访问 。 
个 问题 是 过 滤 规 则 会 以 复杂 的 方式 重要 ， 使 得 系统 管理 员 很 难 正 确 地 表达 过 滤 意 图 。 使 安 
全 性 最 大 化 的 一 个 设计 原则 是 :将 防火 墙 配置 为 于 弃 所 有 分 组 ， 除 非 该 分 组 被 显 式 地 人 允许 通 
过 。 当 然 ， 这 意味 着 某 些 有 效 的 应 用 可 能 会 被 意外 阻止 ， 这 些 应 用 的 用 户 最 终 会 注意 到 问 
题 并 让 系统 管理 员 进 行 适当 的 更 改 。 

很 多 客户 端 - 服 务 器 应 用 动态 地 为 客户 分 配 端 口 。 如 果 防 火 墙 内 的 一 个 客户 发 起 了 到 
外 部 服务 器 的 访问 ， 该 服务 器 的 响应 会 被 寻 址 到 这 个 动态 分 配 的 端口 。 这 会 引起 一 个 问 
题 : 如 何 设置 防火 墙 ， 使 之 允许 来 自 服 务 器 的 任何 响应 分 组 ， 但 是 要 阻止 非 客户 请 求 的 类 
似 分 组 ?” 这 对 于 单独 处 理 每 一 个 分 组 的 无 状态 防火 墙 〈stateless firewall) 是 不 可 能 实现 
的 ， 因 此 需要 采用 有 状态 防火 墙 (stateful firewall) ， 它 会 记录 每 个 连接 的 状态 信息 。 一 
个 被 寻 址 到 动态 分 配 端 口 的 输入 分 组 会 被 允许 通过 的 唯一 条 件 是 ， 它 是 该 端口 上 连接 的 当 
前 状态 的 一 个 有 效 响应 。 

现代 防火 墙 也 能 够 理解 并 根据 很 多 特定 的 应 用 层 协议 〈 如 HTTP, Telnet 或 FTP) 
进行 过 滤 ， 它 们 使 用 特定 于 那个 协议 的 信息 (如 HTTP 中 的 URL) 来 决定 是 否 丢 弃 消 息 。 


防火 墙 的 优点 和 缺点 


防火 增 只 是 保护 网 络 免 受 来 自 因 特 网 其 他 部 分 的 不 期 望 的 访问 ， 它 不 能 为 防火 墙 内 部 
网 络 之 间 以 及 防火 墙 外 部 网 络 之 间 的 合法 通信 提供 安全 性 。 相 比 之 下 ， 本 章 所 描述 的 基于 
人 既然 情况 如 此 ， 为 
什么 防火 增 还 是 这 么 普遍 ? 一 个 原因 是 部 署 防火 墙 时 只 需要 用 成 熟 的 商业 产品 在 一 方 部 
署 ， 而 基于 密码 的 安全 需要 通信 的 两 端 都 提供 支持 。 防 火 墙 处 于 主导 地 位 的 一 个 更 本 质 的 
原因 是 它们 在 一 个 中 心 位 置 封装 了 安全 性 ， 实 际 上 将 安全 性 从 网 络 的 其 他 部 分 剥离 。 系 统 
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管理 员 能 够 通过 管理 防火 墙 来 提供 安全 性 ， 使 得 防火 墙 内 的 用 户 和 应 用 不 需要 考虑 安全 站 
题 一 一 至 少 不 需 要 考虑 某 些 安全 问题 。 

遗憾 的 是 ， 防 火 墙 有 严重 的 缺陷 。 因 为 防火 墙 不 限制 防火 墙 内 主机 之 间 的 通信 ， 所 以 
能 够 控制 站 点 内 代码 运行 的 攻击 者 可 以 访问 所 有 本 地 主机 。 攻 击 者 如 何 进 入 防火 墙 呢 ? 攻 
击 者 可 能 是 一 个 拥有 合法 访问 权限 的 不 满 的 员工 ， 或 者 攻击 者 的 软件 被 隐藏 在 通过 CD 安 
装 或 从 Web 下载 的 软件 中 ,或 者 攻击 者 能 够 通过 无 线 通 信和 或 电话 拨号 连接 来 劳 路 防火 墙 

另 一 问题 是 ， 任何 被 允许 通过 防火 墙 的 实体 〈 如 商业 伙伴 或 位 于 外 部 的 员工 ) 都 可 能 
成 为 安全 缺陷 。 如 果 他 们 的 安全 性 不 像 你 的 那么 好 ,那么 攻击 者 能 够 通过 穿 透 他 们 的 安全 
防护 从 而 穿 透 你 的 安全 防护 。 

防火 墙 最 严重 的 问题 之 一 是 容易 被 防火 墙 内 部 计算 机 上 的 缺陷 破坏 。 这 些 缺 陷 经 常 被 
发 现 ， 因 此 管理 员 不 得 不 一 直 监 视 相 关公 告 。 但 管理 员 经 常 做 不 到 这 一 点 ， 央 为 防火 墙 安 
全 违规 经 常 利 用 存在 了 一 段 时 间 而 且 有 简单 解决 方案 的 漏洞 。 

术语 恶意 软件 (malicious software, malware) 是 指 被 设计 成 以 一 种 计算 机 用 户 不 期 
望 的 并 且 不 易 发 觉 的 方式 运作 的 软件 。 病 毒 、 里 虫 和 间谍 软件 是 严 意 软件 的 常见 类 型 





(病毒 (virus) 有 时 与 恶意 软件 通用 ， 但 我 们 以 狭义 方式 使 用 它 ， 只 是 指 特定 的 一 类 恶意 
软件 )。 恶 意 代码 不 一 定 是 可 执行 的 目标 码 ， 它 也 可 能 是 解释 代码 ， 如 脚本 或 微软 Word 
中 使 用 的 可 执行 的 宏 。 


病毒 (virus) HM R (worm) 的 特点 是 能 够 制造 并 散布 自身 的 备份 ， 它 们 之 间 的 区 
别 是 : 蠕 忠 是 完整 的 程序 ， 而 病毒 是 插入 (插入 它 犁 己 的 备份 ) 到 另 一 个 软件 中 或 一 个 文 
件 中 的 一 段 代 码 ， 因 此 ， 当 软件 执行 或 打开 文件 的 时 候 ， 病 毒 也 被 执行 了 。 典 型 情况 下 .、 
病毒 和 里 虫 会 造成 因 试 图 传播 自身 的 备份 而 引起 的 网 络 带 宽 消 耗 。 更 糟糕 的 是 ， 它 们 也 可 
能 会 以 不 同方 式 著 意 破坏 系统 或 毁坏 其 安全 性 。 例 如 ， 它们 可 以 安装 一 个 后 门 (back- 
door)， 后 门 是 不 经 过 正常 认证 就 允许 远程 访问 系统 的 软件 。 这 可 能 会 导致 防火 墙 己 器 一 
个 本 身 应 该 提供 认证 过 程 而 被 后 门 破坏 的 服务 。 

间谍 软件 是 未 经 授权 的 收集 和 传输 有 关 计 算 机 系统 及 其 用 户 隐私 信息 的 软件 。 通常 . 
间谍 软件 被 秘密 地 帜 入 到 一 个 本 来 有 用 的 程序 中 ， 并 随 用 户 安装 该 程序 的 备份 时 被 传播 。 
对 防火 墙 来 说 ， 问 题 是 这 些 私 有 信息 的 传输 看 上 去 像 合 法 通信 。 

一 个 很 自然 被 提出 的 问题 是 ， 防 火 墙 (或 密码 学 安全 ) 能 否 首先 将 恶意 软件 排除 在 系 
统 之 外 。 绝 六 部 分 恶意 软件 实际 上 是 通过 网 络 传输 的 ， 虽然 也 可 能 通过 可 移动 存储 设备 传 
输 ， 如 CD 和 记忆 棒 。 当 然 ， 这 是 支持 “阻止 没有 被 显 式 允 许 的 所 有 信息 ”. 很 多 管理 员 
都 在 配置 防火 墙 时 采用 该 方法 。 

检测 恶意 软件 的 一 种 方法 是 查找 来 自己 知 恶 意 软 件 的 代码 段 ， 有 时 称 为 特征 (signa- 
ture) 。 聪 明 的 恶意 软件 会 用 不 同 的 方式 调整 其 表示 方式 ， 内 此 这 种 方法 受到 了 限制 .对 
进入 网 络 的 数据 进行 如 此 详细 的 审查 可 能 会 影响 网 络 性 能 。 密 码 学 安全 也 不 能 消除 这 个 问 
题 ,， 虽然 它 的 确 提供 了 一 种 认证 软件 来 源 并 检测 算 改 (例如 病毒 插入 自身 的 备份 ) 的 
AE. 

与 防火 墙 相关 的 是 入 侵 检 测 系 统 (Intrusion Detection System, IDS) 和 入 侵 防 御 系 
统 (Thtrusion Prevention System，IPS)。 这 些 系统 试图 寻找 异常 行为 ， 如 发 向 给 定 主机 或 
给 定 端口 号 的 不 正常 的 大 量 流量 ， 并 向 网 络 管理 者 生成 警告 甚至 直接 采取 行动 限制 可 能 的 
攻击 ， 虽 然 现 在 在 该 领域 有 商业 产品 ， 但 它 仍 处 在 发 展 阶段 ， 
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8.6 小 结 

像 因特网 这 样 的 网 络 是 由 利益 互相 冲突 的 实体 所 共享 的 ， 这 种 情况 在 网 络 互联 的 早期 
是 完全 无 法 预见 的 。 网 络 安全 的 任务 就 是 防止 一 些 用 户 监 视 或 影响 其 他 用 户 的 网 络 使 用 。 
机 密 性 是 通过 加 密 消 息 来 得 到 的 .数据 完整 性 可 以 通过 使 用 密码 散 列 来 确保 ， 两 种 技术 结 
合 起 来 可 以 确保 消息 的 真实 性 。 

对 称 密 钥 密码 ， 如 AES 和 3DES， 在 加 密 和 解密 时 使 用 相同 的 秘密 密 钥 ， 因 此 发 送 方 
和 接收 方 必 须 共 享 相同 的 密 钥 。 公 钥 密 码 ， 如 RSA， 使 用 公 钥 进行 加 密 ， 使 用 一 个 秘密 
的 私 钥 进行 解密 。 这 意味 着 任何 实体 都 能 用 该 公 钥 加 密 一 条 消息 ， 使 得 消息 只 对 私 钥 的 持 
有 者 才 可 读 . 已 知 最 快 的 破解 已 建立 的 密码 (如 AES 和 RSA) 的 方法 是 在 可 能 的 密 钥 空 
间 中 进行 蛮 力 搜索 ， 通 过 使 用 大 密 钥 能 够 使 得 这 种 方法 在 计算 上 不 可 行 。 大 部 分 用 于 保密 
的 加 密使 用 对 称 密 钥 密码 ， 因 为 它们 有 非常 出 众 的 速度 ， 而 公 钥 密码 通常 用 于 认证 和 会 话 
密 钥 建立 。 . 

认证 码 是 附加 到 消息 后 用 于 验证 消息 真实 性 和 数据 完整 性 的 一 个 值 。 生成 认证 码 的 一 
种 方法 是 加 密 由 密码 散 列 函数 (如 MDS 或 SHA-1 散 列 族 中 的 一 个 函数 ) 输出 的 消息 摘 
要 。 如 果 消 息 摘要 是 用 公 钥 密码 的 私 钥 加 密 的 ， 所 得 出 的 认证 码 被 认为 是 数字 签名 ， 因 为 
公 钥 可 以 被 用 于 验证 只 有 私 钥 的 拥有 者 能 够 产生 该 签名 。 男 一 类 认证 码 是 消息 认证 码 ， 它 
是 由 类 散 列 函数 以 一 个 共享 的 秘密 值 为 参数 而 产生 的 。 散 列 MAC 是 将 密码 散 列 应 用 于 明 
文 消息 与 该 秘密 值 的 串 接 后 计算 出 的 MAC, 

会 话 密 钥 被 用 于 保护 相对 较 短 的 一 段 通信 。 会 话 密 钥 的 动态 建立 依赖 于 长 期 存在 的 预 
分 发 密 钥 。 特 定 实体 对 预 分 发 密 钥 的 所 有 权 可 以 通过 由 可 信 实 体 数 字 签 名 的 公 角 证书 来 证 
明 。 公 钥 基 础 设施 是 用 来 验证 这 种 绑 定 的 完整 机 制 ， 它 依赖 于 信任 网 络 或 信任 链 。 用 于 对 
称 密 钥 密码 的 密 钥 的 预 分 发 方法 是 不 同 的 ， 因 为 无 法 使 用 公 钥 证 书 ， 并且 每 一 对 参与 者 部 
需要 唯一 的 密 钥 。 密 钥 分 发 中 心 与 每 一 个 参与 者 都 共享 一 个 预 分 发 密 钥 的 可 信 实 体 ， 因此 
参与 者 之 间 可 以 使 用 会 话 密 钥 ， 而 不 能 使 用 预 分 发 密 钥 。 

认证 和 会 话 密 钥 建 立 要 求 协议 确保 消息 的 时 效 性 和 点 始 性 。 时 间 截 或 当前 值 能 够 用 于 
标识 消息 的 时 效 性 。 我 们 看 了 两 个 使 用 公 钥 密码 的 认证 协议 ， 一 个 要 求 时 钟 同步 ， 而 另 一 
个 不 需要 。Needham-Schroeder 是 认证 两 个 参与 者 的 协议 ， 每 个 参与 者 都 与 密 钥 分 发 中 心 
共享 一 个 主 对 称 密码 密 钥 。Kerberos 是 一 个 基于 Needham-Schroeder 协议 的 认证 系统 ， 专 
门 用 于 客户 端 /服务 器 环 境 。Diffie-Hellman 密 钥 协商 协议 在 不 预 分 发 密 钥 和 不 认证 的 情况 
下 建立 会 话 密 钥 。 

我 们 介绍 了 用 个 使 用 这 些 密码 算法 和 协议 提供 安全 性 的 系统 。 在 应 用 层 ，PGP 可 以 用 
来 保护 电子 邮件 消息 ，SSH 可 以 用 于 安全 地 连接 到 一 台 远 程 计算 机 。 在 传输 层 ，TLS 可 
用 于 保护 WWW 上 的 商务 交易 。 在 网 络 层 ，IPsec 体系 结构 可 用 于 因特网 上 任何 主机 和 网 
关 集 合 之 间 的 安全 通信 。 

防火 墙 对 它 所 保护 的 站 点 与 网 络 其 他 部 分 之 间 传 输 的 消息 进行 过 滤 。 防 火 墙根 据 IP、 
TCP 和 UDP 地 址 进行 过 滤 ， 也 根据 一 些 应 用 协议 中 的 字段 进行 过 滤 。 有 状态 防火 墙 跟踪 
每 个 连接 的 状态 ， 以 便 允 许 将 有 效 的 啊 应 传送 到 动态 分 配 的 端口 。 虽 然 防火 墙 安全 有 一 些 
重要 的 局 限 ， 但 它 的 优点 是 将 一 些 安全 责任 从 用 户 和 应 用 转移 到 系统 管理 员 。 
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接 下 来 会 发 生 什 么 : 面 对 安全 

如 果 你 问 任 何 因特网 研究 者 这 样 一 个 问题 : “如 果 我 们 能 够 重新 建造 因特网 ， 什 么 会 
是 未 来 因特网 应 具备 的 最 重要 的 特点 ?”， 答 案 很 可 能 会 涉及 更 好 的 安全 性 。 思 考 这 个 问题 
的 一 个 角度 是 因特网 是 由 一 个 很 小 的 团体 设计 的 ， 当 时 他 们 只 是 想 访问 对 方 的 计算 机 ， 而 
当今 的 因特网 被 一 个 巨大 的 全 球 性 的 团体 所 使 用 ,包括 相当 数量 的 犯罪 分 子 希 望 访问 其 他 
大 量 计算 机 。 因 此 ， 这 种 默认 公开 访问 的 设计 不 太 适 合 当今 社会 。 

有 大 量 理论 研究 试图 改善 这 种 状况 。 当 然 ， 一 个 问题 是 因特网 是 日 常生 活 中 如 此 重要 
的 部 分 ， 以 至 于 我 们 无 法 想象 用 一 个 新 的 重新 设计 的 版 本 来 蔡 换 它 。 但是， 的 确 有 大 量 
“从 零 开 始 ” 的 研究 正在 进行 ， 其 理论 基础 工作 在 不 受 增 量 部 署 问题 影响 的 未 来 的 互联 网 
上 ， 这 可 能 会 带 来 一 些 新 的 见解 ， 在 将 来 用 于 更 新 当前 的 因特网 。 (参考 第 3 章 中 的 “ 扩 
展 阅读 ”。) 

短期 展望 似乎 是 继续 玩 猫 提 老 鼠 的 游戏 。 防 火 墙 、 入 侵 检测 系统 和 DoS 缓解 系统 变 得 
更 复杂 ， 攻 击 者 寻找 新 方法 来 对 付 这 些 系 统 的 防御 ， 这 些 系统 则 变 得 更 擅长 抵抗 新 攻击 . 
有 利 的 一 面 是 ， 很 多 安全 系统 效果 很 好 ， 如 果 不 是 因为 传输 层 安全 (TLS) 和 所 有 密码 学 
方法 提供 有 效 的 支持 ，Web 上 不 会 有 如 此 多 的 电子 商务 系统 。 

曾 用 于 描述 因特网 未 来 愿景 的 词 是 “一 个 值得 社会 信任 的 互联 网 ”。 显 然 ， 实 现 这 个 
愿景 是 巨大 的 挑战 ， 保 护 网 络 安全 将 会 是 未 来 一 段 时 间 内 的 一 个 研究 和 创新 的 领域 。 


扩展 阅读 

前 篇 有 关 安 全 的 文章 ， 共 同 对 本 主题 给 出 了 很 好 的 综述 。Lampson 等 人 的 文章 包含 安 
全 的 形式 化 论述 ， 而 Satyanarayanan 的 文章 对 在 实际 中 怎样 设计 一 个 安全 系统 进行 了 详细 
描述 。 第 三 篇 文章 给 出 IPsec 安全 体系 结构 的 概述 ， 而 且 它 是 全 面 了 解 当 今 因 特 网 安全 状 
态 的 很 好 的 起 点 。 

e Lampson, B.et al. Authentication in distributed systems: Theory and prac- 

tice. ACM Transactions on Computer Systems 10 (4); 265-310, November 1992. 

e Satyanarayanan, M. Integrating security in a large distributed system. ACM Trans- 

actions on Computer Systems 7 (3): 247-280, August 1989. 
。 Staniford, S., V.Paxson, and N. Weaver. How to Own the Internet in Your 
Spare Time. USENIX Security Symposium 2002, pp. 149- 167. San Francisco. 

_ CA, August 2002. 

有 几 本 好 书 全 面 介绍 了 网 络 安全 领域 的 各 个 方面 。 我 们 推荐 Schneier [Sch95], Stall- 
ings [Sta03] 和 Kaufman 等 [KPS02] 的 书 。 前 两 本 对 本 主题 给 出 全 面 的 分 析 ， 而 最 后 
一 本 就 这 个 主题 给 出 非常 易 读 的 概述 。IPsec 的 完整 的 体系 结构 定义 在 一 系列 RFC 中 : 
[Ken05a], [Eas05]、 [MG98a], [MG98b], [MD98], [Ken05b], [Kau05], OpenPGP 
标准 的 定义 在 [cal07] 中 ， 最 新 的 TLS 标准 的 定义 在 LDROS| H. Barrett 和 Silverman 
的 书 [BS01] 给 出 SSH 的 完整 描述 。Menezes 等 [MvOV96] 的 书 是 一 本 全 面 的 密码 学 参 
考 书 ` (在 下 面 的 URL 中 能 够 免费 下 载 该 书 的 拷贝 )。 

对 于 辨别 和 防范 拒绝 服务 攻击 这 一 问题 的 讨论 ， 可 以 在 Moore 等 [MVS01], Spats- 
check 和 Peterson [SP99] 以 及 Qie 等 [QPP02] 的 书 中 看 到 。 用 来 辨别 攻击 源 的 最 新 技 
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术 可 以 在 Savage 等 [SWKA00] 和 Snoeren 等 [SPS* 01] 的 几 篇 论文 中 找到 。Garber 
[Gar00] 和 Harrison | Har00] 讨论 了 DDoS 攻击 带 来 的 越 来 越 大 的 威胁 ，Park 和 Lee 的 
论文 [PL0] 介绍 了 早期 用 来 防范 这 些 攻 击 的 一 种 方法 。Yang 等 [YWA08] 的 TVA 方 
法 是 一 种 新 的 Dos 防御 方法 ， 属 于 “从 零 开 始 ”的 研究 类 型 。 
最 后 . 我 们 推荐 下 列 网 址 供 实时 参考 : 
。 http://www. cert. org/: 计算 机 紧急 事件 响应 组 (CERT) 的 网 址 ，CERT 是 关注 
计算 机 安全 问题 的 组 织 。 
。 http://www. cacr. math. uwaterloo. ca/hac/: [MvOV96] AYA, FRH JI., KE 
本 全 面 的 密码 学 参考 书 。 


习题 

1. 在 你 的 系统 中 查找 或 安装 一 个 加 密 程序 (例如 ，Unix 的 des 命令 或 pgp 命令 ) 。 阅 读 其 文档 并 用 它 进 
行 实验 。 测 试用 它 对 数据 加 密 和 解密 有 多 快 。 加 密 和 解密 的 速率 相同 吗 ” 试 比较 一 些 使 用 不 同 密 钥 长 
度 的 计时 结果 ， 例如， 比较 AES 和 三 重 DES, 

. 画 出 类 似 8. 1. 1 节 中 描述 的 图 来 表示 密码 分 组 链 。 

. 学习 一 个 密 钥 托管 方案 〈 例 如 ，Clipper) 。 密 钥 托 管 的 优点 和 缺点 是 什么 ? 

. 一 个 好 的 密码 散 列 算法 应 该 产生 随机 输出 换言之， 任何 给 定 获 列 值 的 概率 应 该 与 随机 选取 的 输入 数 
据 对 应 的 散 列 值 的 概率 大 致 相同 。 如 果 所 使 用 的 散 列 算法 的 输出 不 是 随机 的 ,会 产生 什么 后 果 呢 ? 例 
如 ,考虑 这 种 情况 ， 一 些 散 列 值 出 现 的 可 能 性 是 其 他 散 列 值 的 2 售 。 

. 假设 Alice 使 用 8.3.3 节 中 描述 的 Needham-Schroeder 认证 协议 来 发 起 一 个 与 Bob 的 会 话 。 进 一 步 假设 
攻击 者 能 够 窃听 认证 消息 ， 并 在 会 话 完成 后 很 久 才 能 发 现 (解密 ) 会 话 密 钥 。 攻 击 者 如 何 欺骗 Bob 使 
他 将 攻击 者 认证 为 Alice。 

6. 在 口令 认证 中 抵制 重 放 攻 击 的 一 个 机制 是 使 用 一 次 性 口令 (one-time password): 准备 一 个 口令 列表 ， 
一 旦 password [N] 被 接受 ， 服 务 器 就 对 NN 减 1， 并 在 下 次 提示 输入 password [N 一 1]。 当 N=0 时 ， 

需要 新 列表 。 描 述 一 个 机 制 ， 使 得 用 户 和 服务 器 仅 需 要 记 住 一 个 主 口 令 mp， 并 且 有 在 本 地 计算 
passwordL N]=f(mp, N) 的 可 用 方法 。 提示: i g 是 一 个 合适 的 单 向 函数 (如 MD5)， 并 设 password 
[N]=g^(mp) = 对 mp 应 用 六 次 。 解 释 为 什么 知道 password N] 并 不 会 有 助 于 揭示 password N 一 1]。 

7. 假设 用 户 使 用 上 述 的 一 次 性 口令 〈 或 者 可 重用 的 口令 )， 但 是 口令 的 传送 足够 慢 。 

Ca) 说 明 历 听 者 在 一 定数 量 的 猜测 后 可 获得 对 远程 服务 器 的 访问 。 (提示: 原 用 户 输入 口令 的 除 最 后 
一 个 字符 外 的 所 有 字符 后 ， 窃 听 者 开始 猜测 。) 
Cb) 一 次 性 口令 的 用 户 可 能 过 到 什么 样 的 其 他 攻击 ? 

8. Diffie Hellman 密 钥 交换 协议 容易 受到 “中 间 人 ”攻击 ， 如 8.3.4 节 和 图 8-12 所 了 示 。 简 述 怎 样 扩展 
Diffie-Hellman 才能 让 它 防范 这 种 可 能 的 攻击 。 

9. 假设 我 们 有 一 个 非常 短 的 秘密 〈 例 如， 一 个 比特 或 者 一 个 社会 保障 码 )， 而 且 我 们 希望 发 送 给 其 他 人 
一 条 消息 下， 其 中 不 会 时 人 露 y， 但 随后 能 用 于 验证 我 们 确实 知道 *。 解 释 为 什么 利用 RSA 加 密 的 二 
MD5(s) BA m=ECs) 不 是 安全 的 选择 ， 并 给 出 一 个 更 好 的 选择 。 

10. 假设 两 个 人 想 在 网 络 上 打 扑克 。 为 了 发 牌 ， 他 们 需要 一 个 在 他 们 之 间 公 平 选择 随机 数 zx 的 机 制 ， 如 
果 一 方 能 不 公平 地 影响 z 的 选择 ， 则 男 一 方 输 了 。 描 述 这 样 的 一 个 机 制 。( 提 示 : 假设 如 果 两 个 比特 
Pay. a. 之 一 是 随机 的 ， 则 二 者 的 异 或 + 二 如 力 zz 也 是 随机 的 。) 

11. 估算 找到 两 条 具有 相同 MD5 校 验 和 的 消息 的 概率 ， 假 设 消息 的 总 数 分 别 是 2 、2 和 2 和。 (提示 : 
这 又 是 一 个 生日 问题 ， 就 像 第 2 章 的 习题 48 那样 ， 而 且 第 k 十 1 个 消息 有 不 同 于 前 个 消息 的 校 验 和 
的 概率 是 1 一 k/2*。 但是， 在 部 道 习 题 的 提示 中 简化 了 积 的 近似 值 ， 这 一 点 现在 不 适用 了 。 所 以 ， 
每 一 端 分 别 取 对 数 ， 并 使 用 近似 值 log(1 一 k/2'23) 过 一 kh/2123.,) 
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假设 我 们 想 用 3DES 加 密 一 个 Telnet BiG. Telnet 发 送 很 多 1 字 节 的 消息 ， 而 3DES 一 次 加 密 8 字 节 

的 分 组 。 解 释 怎 样 在 这 个 场景 中 安全 地 使 用 3DES。 

考虑 下 列 用 于 下 载 文 件 的 简单 UDP 协议 (大体 上 以 TFTP 为 基础 ， 即 RFC 1350); 

。 客户 端 发 送 一 个 文件 请 求 。 

。 服务 器 用 第 一 个 数据 分 组 响应 。 

。 客户 端 发 送 ACK， 双 方 以 停止 - 等 待 协议 进行 交互 。 

假设 客户 端 和 服务 器 分 别 拥有 密 钥 Kc 和 Ks， 并且 彼 此 知道 对 方 的 密 钥 。 

Ca) 用 这 些 密 钥 和 MDS 扩展 文件 下 载 协 议 ， 提 供 发 送 方 认证 和 消息 完整 性 。 你 的 协议 也 应 是 可 抵抗 
重 放 攻 击 的 。 

(b) 在 你 修改 协议 时 所 增加 的 额外 信息 怎样 防止 出 现 晚 到 的 来 自 之 前 连接 的 分 组 以 及 序列 号 的 回 绕 。 

利用 你 选择 的 浏览 器 ， 找 到 你 的 浏览 器 对 HTTPS 默认 配置 的 是 什么 认证 机 构 。 你 信任 这 些 代理 机 构 

吗 ? 当 你 设置 为 不 信任 这 些 认 证 机 构 中 的 一 些 或 全 部 时 ， 会 发 生 什 么 ? 

使 用 OpenPGP 的 一 个 实现 (如 GnuPG) 来 完成 下 列 练习 。 注 意 ， 不 包括 电子 邮件 一 一 你 只 操作 一 台 

计算 机 上 的 文件 。 

(a) 产生 一 个 公 钥 / 私 钥 对 。 

(b) 用 公 钥 加 密 一 个 文件 ， 以 便 安全 存储 ， 然 后 用 私 钥 解密 。 

Cc) 用 你 的 密 钥 对 来 数字 签名 一 个 未 加 密 的 文件 ， 然 后 假设 你 是 别人 ， 用 你 的 公 钥 验证 你 的 签名 。 

(d) 假设 第 一 个 公 钥 / 私 钥 对 属于 Alice， 为 Bob 产生 第 二 个 公 钥 / 私 铀 对 。 扮 演 Alice， 加 密 并 签名 一 


个 发 给 Bob 的 文件 (确保 以 Alice 签名 ， 而 不 是 以 Bob)。 然 后 ， 扮 演 Bob， 验 证 Alice 的 签名 ， 
并 解密 该 文件 。 
考虑 8. 2. 1 节 中 所 描述 的 证 书 分 层 结构 。 根 CA 为 一 个 二 层 CA 签发 了 一 个 证 书 ， 该 二 层 CA 为 Alice 


签发 了 一 个 证 书 。Bob Aik CA 的 公 钥 ， 所 以 他 能 够 验证 二 层 CA 的 证 书 。 为 什么 Bob 仍然 可 能 不 相 

fa Alice 是 证 书 中 公 钼 的 拥有 者 ? 

PuTTY (发 音 为 “putty”) 是 一 个 流行 的 免费 SSH 客户 端 一 一 实现 SSH 连接 的 客户 端 应 用 程序 一 一 

用 于 Unix 和 Windows。 可 以 在 Web 上 访问 它 的 文档 。 

(a) PuTTY 如 何 处 理 对 以 前 没有 连接 过 的 服务 器 的 认证 ? 

(b) 客户 端 是 如 何 被 服务 器 认证 的 ? 

(c) PuTTY 支持 多 种 密码 。 它 如 何 确定 每 一 个 特定 的 连接 使 用 哪 一 种 密码 ? 

(d) PuTTY 支持 像 DES 这 样 的 密码 ， 这 在 某 些 或 所 有 情况 下 都 被 认为 太 脆弱 。 为 什么 ” PuTTY 如 
何 判断 哪些 密码 脆弱 ? 它 是 如 何 利用 这 些 信息 的 ? 

Ce) 对 于 一 个 给 定 的 连接 ，PuTTY ee OGR 
PuTTY 开始 建立 一 个 新 的 会 话 密 钥 ， 这 个 过 程 在 文档 中 称 为 密 钥 交换 (key exchange) den 
重 发 (rekeying)。 Sie hed ta 

Cf) 使 用 PuTTY 密 钥 生成 器 PuTTYgen 为 PuTTY 所 支持 的 一 种 公 钥 密码 产生 一 个 公 钥 / 私 钥 对 。 

假设 你 希望 防火 墙 阻 止 所 有 进入 的 Telnet 连接 ， 但 允许 出 去 的 Telnet 连接 。 一 种 方法 是 阻止 到 指定 

的 Telnet 端口 (23) 的 所 有 进入 的 分 组 。 

Ca) 我 们 可 能 也 希望 阻止 到 其 他 端口 的 进入 分 组 ， 但 为 了 不 妨碍 出 去 的 Telnet， 必 须 允 许 哪些 进入 的 
TCP 连接 ? 

(b) 现在 假设 允许 你 的 防火 墙 除 端口 号 之 外 还 可 使 用 TCP 首部 的 Flags 位 。 解 释 怎 样 达到 你 所 希望 
的 Telnet 效果 ， 同 时 不 允许 进入 的 TCP 连接。 


: 假设 防火 墙 被 配置 为 允许 出 去 的 TCP 连接 ， 但 仅 允许 到 指定 的 端口 的 进入 的 连接 。 现 在 FTP 协议 提 


出 一 个 问题 : 当 一 个 内 部 客户 联系 外 部 服务 器 时 ， 出 去 的 TCP 控制 连接 可 以 正常 打开 ,但 TCP 数据 
连接 传统 上 是 进入 的 。 


20. 
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(a) 查找 FTP 协议 , 例如 在 RFC 959 中 查找 。 清 楚 PORT 命令 如 何 工 作 。 讨 论 如何 写 客户 端 才能 限 
制 防火 墙 允 许 访 问 的 端口 的 数量 。 这 种 端口 的 数量 可 以 限制 为 1 吗 ? 

(b) FTP PASV 命令 如 何 用 于 解决 防火 墙 问 题 ? 

假设 过 滤 路 由 器 的 设置 如 图 8-21 所 示 ; 主 防 火 墙 是 R1。 解 释 如 何 配置 R1 和 R2， 使 外 界 能 远程 登录 

到 网 络 2， 但 不 能 登录 到 网 络 1 上 的 主机 。 为 了 避免 “ 跃 过 ” 间 人 网络 1， 也 不 许 从 网 络 2 远程 登录 

到 网 络 1 。 


外 部 世界 Ri) 网 络 1 R- 网 络 2 





图 8-21 习题 20 图 


21. 为 什么 因特网 服务 提供 商 可 能 想 阻 止 某 些 外 出 通信 量 ? 
22. 据说 IPsec 不 一 定 能 与 网 络 地 址 转换 (Network Address Translation, NAT) (RFC 1631) 一 起 工作 。 


然而 ，JPsec 可 不 可 以 与 NAT 一 起 工作 取决 于 我 们 使 用 IPsec 和 NAT 的 哪个 模式 。 假 设 我 们 使 用 真 

正 的 NAT， 只 转换 IP 地 址 (不 转换 端口 )。IPsec 和 NAT 能 在 下 列 各 种 情况 下 工作 吗 ? 解释 为 

什么 . 

(a) IPsec 使 用 ESP 传输 模式 。 

(b) IPsec 使 用 ESP bk iM Bist. 

Co) 如 果 我 们 使 用 端口 地 址 转换 (Port Address Translation, PAT) 会 怎样 ? PAT 也 称 为 NAT 中 的 
网 络 地 址 /端口 转换 (Network Address/Port Translation，NAPT)， 其 中 除了 对 IP 地 址 进行 转换 
外 ， 还 要 对 端口 号 进行 转换 ， 以 便 在 专用 网 络 外 部 共享 一 个 IP 地 址 。 
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现在 不 是 结束 ， 甚 至 不 是 结束 的 开始 ， 但 可 能 是 开始 的 结束 。 
BM LER 


问题 : 应 用 需要 自己 的 协议 


本 书 开始 谈论 了 人 们 想 在 计算 机 网 络 上 运行 应 用 程序 ， 从 Web 浏览 器 到 视频 会 议 工 
具 ， 可 谓 包罗 万 象 。 在 中 间 的 各 章 ， 我们 循序 渐进 地 展开 了 构建 这 些 应 用 所 需 的 网 络 体系 
结构 。 我 们 现在 循环 回 到 原点 ， 返 回 到 网 络 应 用 。 这 些 应 用 可 部 分 地 看 作 是 网 络 协议 (从 
它们 与 其 他 计算 机 上 的 对 等 实体 交换 消息 的 角度 来 看 )， 部 分 看 作 是 传统 应 用 程序 (从 它 
们 与 窗口 系统 、 文 件 系统 以 及 最 终 和 用 户 之 间 相 互 作 用 的 角度 来 看 ) 。 本 章 探 讨 现今 一 些 
最 流行 的 网 络 应 用 。 

考察 应 用 能 够 使 我 们 理解 在 整 本 书 中 一 直 强 调 的 系统 方法 (system approach), Alt. 
构建 高 效 联 网 应 用 的 最 好 方法 是 理解 网 络 能 够 提供 的 构建 模块 以 及 这 些 模块 是 如 何 互 相交 
互 的 。 例 如 ， 一 个 特定 的 网 络 应 用 可 能 需要 利用 可 靠 的 传输 协议 、 认 证 和 保密 机 制 以 及 底 
层 网 络 的 资源 分 配 能 力 。 通 常 在 应 用 开发 者 知道 如 何 充分 利用 这 些 工具 时 (也 有 大 量 的 没 
有 很 好 地 利用 可 用 网 络 能 力 的 反面 应 用 实例 )， 应 用 才 工 作 得 最 好 。 应 用 一 般 也 需要 它们 
自己 的 协议 ， 在 很 多 情况 下 使 用 我 们 在 研究 低层 协议 时 已 经 看 到 的 同样 的 原则 因此 ， 本章 
我 们 关注 如 何 将 已 经 描述 的 思想 和 技术 组 合 在 一 起 来 构建 高 效 联 网 应 用 。 换 句 话 说 ， 如 果 你 
想象 自己 编写 一 个 网 络 应 用 ,那么 根据 定义 你 就 成 为 一 个 协议 设计 者 〈 和 实现 者 ) 。 

我 们 将 研究 各 种 熟悉 和 不 熟悉 的 网 络 应 用 ， 包括 交换 电子 邮件 、Web 冲浪 、 跨 业务 整 
合 应 用 、 管 理 网 络 元 素 的 集合 、 像 vic 和 vat 那样 的 多 媒体 应 用 ， 以 及 新 兴 的 对 等 网 和 内 
容 分 发 网 络 。 这 些 罗 列 虽 显 粗略 ， 但 它 举例 说 明了 设计 和 构建 应 ) 有 的 要 领 。 应 用 需要 在 网 


络 中 或 主机 协议 栈 中 的 其 他 层 选择 适当 的 组 件 ， 然 后 增强 那些 低层 服务 以 提供 应 用 所 需要 
的 精确 的 通信 服务 。 


9.1 传统 应 用 


我 们 以 最 流行 应 用 中 的 两 个 例子 (万维网 (Word Wide Web) 和 电子 邮件 ) 开始 对 应 
用 的 讨论 。 广 义 地 讲 ， 这 两 个 应 用 都 使 用 请 求 / 响 应 模式 一 一 用 户 向 服务 器 发 出 请 求 ， 服 
务 器 随 之 响应 。 我 们 称 它 们 为 传统 应 用 ， 因 为 它们 代表 着 自从 早期 计算 机 网 络 时 代 就 已 存 
在 的 应 用 种 类 。( 虽 然 Web 比 电子 邮件 新 很 多 , 但 其 基础 是 早期 的 文件 传输 。) 与 之 对 照 ， 
后 面 的 章节 将 讨论 最 近 才 变 得 可 行 的 一 类 应 用 : 流 应 用 《〈 即 像 视频 和 音频 之 类 的 多 媒体 应 
用 ), 和 各 种 基于 攻 盖 的 应 用 。 注意 ， 这 些 分 类 之 间 的 界限 有 点 模糊 ， 因 为 你 当然 可 以 通 
过 Web 访问 流 媒体 数据 ， 但 现在 我 们 把 重点 放 在 Web 的 一 般 用 法 ， 即 请 求 网 页 、 图 
HY.) 

在 详细 讨论 每 个 应 用 之 前 ， 我 们 需要 清楚 三 个 要 点 。 第 一 点 非常 重要 ， 即 区 分 应 用 程 
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Æ (program) 与 应 用 协议 (protocol). an. 超 文 本 传输 协议 (HyperText Transport 
Protocal, HTTP) 是 一 个 用 于 从 远程 服务 器 上 获取 网 页 的 应 用 协议 。 有 许多 不 同 的 应 用 
程序 (如 Internet Explorer, Netscape, Firefox 和 Safari 那样 的 Web 客户 端 ) 提供 给 用 户 
不 同 的 外 观 和 感觉 ， 但 是 它们 都 使 用 同样 的 HTTP 协议 在 因特网 上 与 Web 服务 器 通信 。 
当然 ， 事实 上 该 协议 已 公开 并 已 成 为 标准 ， 人 允许 很 多 不 同 公司 和 个 人 开发 的 应 用 程序 与 所 
有 Web 服务 器 (有 很 多 变种 ) 实现 互 操作 。 

本 节 着 重 于 两 个 使 用 非常 广泛 并 且 已 成 为 标准 的 应 用 协议 : 

© SMTP.: 简单 邮件 传输 协议 (Simple Mail Transfer Protocol) ， 用 于 交换 电子 邮件 。 

© HTTP: 超 文本 传输 协议 (HyperText Transport Protocol), HF Web 浏览 器 和 

Web 服务 器 之 间 的 通信 。 
我 们 还 会 研究 个 人 应 用 协议 是 如 何在 Web 服务 (Web Service) 框架 中 定义 的 。 


第 二 点 ， 由 于 在 这 一 节 中 描述 的 所 有 应 用 协议 都 遵循 相同 的 请 求 /响应 通信 模式 ， 所 
以 我 们 期 望 它们 都 建立 在 RPC 传输 协议 之 上 。 然 而 并 非 如 此 ， 它 们 全 都 实现 在 TCP 之 


上 。 实 际 上 ， 每 个 协议 是 在 一 个 已 有 的 可 靠 传输 协议 之 上 重新 改造 一 个 简单 的 类 似 RPC 
的 机 制 。 我 们 说 “简单 "， 是 因为 每 个 协议 都 没有 设计 成 支持 5. 3 节 中 讨论 的 任意 远程 过 
程 调用 ， 而 是 设计 为 发 送 和 响应 一 个 特定 的 请 求 消息 集合 。 

最 后 ， 我 们 发 现 很 多 应 用 层 协议 ， 包 括 HTTP 和 SMTP， 都 有 一 个 配套 协议 来 说 明 
能 交换 的 数据 格式 。 这 是 这 些 协 议 相 对 简单 的 一 个 原因 : 大 部 分 复杂 的 事情 在 这 个 配套 文 
档 中 管理 。 例 如 ，SMTP 是 一 个 交换 电子 邮件 消息 的 协议 ， 但 RFC 822 和 多 功能 因特网 
邮件 扩展 (Multipurpose Internet Mail Extensions, MIME) 定义 邮件 消息 的 格式 。 类 似 
地 ，HTTP 是 获取 Web 页 面 的 协议 ， 但 超 文 本 标记 语言 (HyperText Markup Language, 
HTML) 蚌 一 个 配套 规范 ， 它 定义 这 些 网 页 的 格式 。 


9.1.1 电子 邮件 (SMTP, MIME, IMAP) 


电子 邮件 是 最 时 的 网 络 应 用 之 一 。 毕 竞 ， 在 你 刚 获准 在 一 条 跨国 链 路 上 运行 时 ， 有 什 
么 比 希 望 向 链 路 男 一 端的 用 户 发 送 一 条 消息 更 自然 的 呢 ? 令 人 惊讶 的 是 ，ARPANET 的 
先驱 并 没有 料 到 在 网 络 建成 后 ( 屠 时， 远程 访问 计算 机 资源 是 主要 的 设计 日 标 )， 电子 邮 
件 会 成 为 一 个 关键 应 用 ， 但 是 电子 邮件 变 成 了 很 有 用 的 应 用 并 且 一 直 非 常 流行 。 

如 前 所 述 ， 有 两 点 很 重要 : 区 分 底层 的 消息 传输 协议 (如 SMTP 或 IMAP) 与 用 户 
接口 〈 即 邮件 阅读 器 ) ，@ 四 区 分 这 个 传输 协议 (SMTP) 与 定义 交换 消息 格式 的 配套 协议 
(RFC 822 和 MIME)。 我 们 将 从 考查 消息 格式 开始 。 

1. 消息 格式 

RFC 822 将 消息 定义 为 两 个 部 分 : 首部 Cheader) 和 主体 (body)。 两 部 分 都 用 
ASCI 文本 来 表述 。 最初 ， 消 息 主体 被 设想 为 简单 的 文本 。 现 在 情况 仍然 如 此 ， 尽 管 RFC 
822 已 被 MIME 扩充 以 允许 主体 支持 所 有 种 类 的 数据 。 这 些 数据 仍 用 ASCI 文本 表示 ， 但 
因为 它 可 能 是 已 编码 的 版 本 (如 JPEG 图 像 )， 所 以 对 用 户 来 说 不 一 定 是 可 读 的 。 稍 后 将 
更 多 地 提 到 MIME, 

消息 首部 是 一 系列 以 〈CRLEFE) AIR ANAT. CCCRLF) 代表 回 车 十 换行 ， 是 一 对 ASCII 
控制 符 ， 常 常用 于 指示 文本 行 的 结尾 .) 首部 与 主体 之 间 用 一 个 室 行 分 隔 。 每 个 首部 行 包 








括 了 由 冒号 分 隔 的 类 型 和 值 。 许 多 首部 行 是 用 户 所 熟悉 的 ， 因 为 当 他 们 写 电 子 邮 件 消息 时 
要 求 填 写 这 些 行 。 例 如 ，To: 首部 用 来 识别 消息 的 接收 者 ,而 Subject: 首 部 用 来 说 明 这 个 
消息 的 目的 。 其 他 的 首部 由 低层 的 邮件 递送 系统 填写 。 例 如 Date: (消息 传送 时 间 )、 
From: (发 送 消息 的 用 户 ) 和 Received:( 处 理 这 个 消息 的 每 个 邮件 服务 器 ) 。 当 然 ， 还 有 许 
多 其 他 的 首部 行 ， 感 兴趣 的 用 户 可 参考 RFC 822. 

RFC 822 在 1993 年 被 扩充 〈 此 后 又 多 次 更 新 )， 以 便 允 许 邮 件 消息 携带 许多 不 同 
的 数据 类 型 : 音频 、 视 频 、 图 像 、PDF 文档 等 。MIME 包括 三 个 基本 部 分 。 第 一 部 分 
是 一 个 首部 行 的 集合 ， 它 扩充 了 由 RFC 822 定义 的 原始 集合 。 这 些 首部 行 以 各 种 方 
式 描 述 了 放 到 主体 中 的 数据 。 它 们 包括 MIME-Version; (正在 使 用 的 MIME fig AS). 
Content-Description: (关于 消息 中 内 容 的 可 读 性 描述 ， 类 似 于 Subject: 行 ). Content 
Type: (消息 中 包含 的 数据 类 型 ) 和 Content-Transfer-Encoding: (主体 中 的 数据 是 如 
何 编码 的 ) 。 

第 二 部 分 是 一 组 内 容 类 型 (和 子 类 型 ) 的 定义 。 例 如 ，MIME 定义 两 种 不 同 的 静态 图 
BARA, RANA image/gif 和 image/jpeg， 每 种 表示 的 含义 都 显而易见 。 作 为 另 一 个 例子 . 
text/plain 表示 简单 文本 ， 你 可 能 会 一 种 822 式 消 息 中 找到 它 ， 而 text/richtext 表示 消息 
包含 “标记 ”文本 (如 使 用 特殊 的 字体 、 和 斜体 等 的 文本 )。 作 为 第 三 个 例子 ，MIME 定义 
一 个 application 类 型 ， 其 子 类 型 对 应 不 同 应 用 程序 的 输出 (如 application/postscript 和 
application/msword) 。 

MIME 也 定义 了 一 个 multipart 类 型 ， 说明 如 何 构造 一 个 带 有 多 种 数据 类 型 的 消息 ， 
这 就 像 编程 语言 定义 基本 类 型 (如 整数 和 浮 点 数 ) 和 组 合 类 型 (如 结构 和 数组 )。 一 种 可 
能 的 multipart 子 类 型 是 mixed， 它 说 明 消息 包含 一 组 指定 顺序 的 独立 数据 块 。 每 一 块 有 自 
身 描述 本 块 类 型 的 首部 行 。 

第 三 部 分 是 编码 各 种 类 型 数据 的 方法 ， 以 便 使 数据 可 以 在 一 个 ASCII 电子 邮件 消息 中 
传递 。 问 题 是 ， 对 于 一 些 数据 类 型 (如 JPEG 图 像 )， 在 图 像 中 任何 给 定 的 8 比特 字 节 都 
可 能 包含 256 个 不 同 值 中 的 一 个 ， 而 只 有 这 些 值 的 一 个 子 集 是 有 效 的 ASCII 字 符 。 邮件 
消息 中 仅 包 含 ASCI 是 很 重要 的 ， 因 为 它们 可 能 通过 一 系列 中 间 系 统 〈 就 像 下 面 将 要 描 
述 的 网 关 )。 中 间 系 统 假设 所 有 邮件 都 是 ASCII 字 符 ， 如 果 其 中 包含 非 ASCII 字符 将 破 
坏 该 消息 。 为 解决 这 个 问题 ，MIME 使 用 了 一 种 简单 地 将 二 进 制 数 编码 到 ASCI 字符 集 
中 的 方法 。 这 个 编码 方法 称 为 base64。 其 思路 是 将 原始 二 进 制 数 据 的 每 3 个 字 节 映射 到 
4 个 ASCII 字 符 。 有 具体 方法 是 将 二 进 制 数 以 24 比特 为 单位 分 组 ， 并 将 每 个 分 组 分 成 4 个 
6 比特 的 块 。 每 6 比特 映射 成 64 个 有 效 的 ASCII 字 符 之 一 。 例如，0 映射 到 A，1 映射 
到 也 等 。 如 果 你 看 到 采用 base64 方案 编码 的 消息 ， 你 将 注意 到 仅 有 52 个 大 小 写字 母 、 
10 个 0~9 的 数字 及 特殊 字符 “十 ”和 “/”。 这 些 正 是 ASCI 字符 集中 最 前 面 的 64 
个 值 。 
另 一 方面 ， 为 了 让 那些 坚持 使 用 纯 文 本 邮件 的 用 户 阅 读 邮件 时 尽 可 能 不 费力 气 ， 一 个 
由 常规 纯 文 本 组 成 的 MIME 消息 只 能 使 用 7 比特 ASCI 编码 。 对 大 多 数 ASCI 数据 还 有 
其 他 可 读 的 编码 。 

综 上 所 述 ， 一 条 包含 一 些 普通 文本 、 一 幅 JPEG 图 像 和 一 个 PostScript 文件 的 消息 、 
看 上 去 如 下 所 示 : 








MIME-Version: 1.0 

Content-Type: multipart/mixed; 
boundary="--- -41 7CA6E2DE4ABCAFBC5" 
From: Alice Smith <Alice@cisco.com> 
To: Bob@cs.Princeton.edu 

Subject: promised material 

Date: Mon, 07 Sep 1998 19:45:19 -0400 


sinters = meas 417CAGEZDE4ABCAFBC5 
Content-Type: text/plain; charset=us-ascii 
Content Transfer-Encoding: 7bit 


Bob, 
Here's the jpeg image and draft report I promised. 
--Alice 


-= 417CA6E2DE4ABCAFBC5 

Content-Type: image/jpeg 

Content-Transfer-Encoding: base64 

. unreadable encoding of a jpeg figure 

----- -417CA6E2DE4ABCAFBC5 

Content-Type: application/postscript; name="draft.ps" 

Content-Transfer-Encoding: 7bit 

. readable encoding of a PostScript document 

在 这 个 例子 中 ， 消 息 首 部 中 的 Content-Type 行 指出 这 个 消息 包含 不 同 的 块 ， 每 一 块 
用 一 个 并 不 出 现在 数据 本 身 中 的 字符 串 标明 。 并 且 每 个 块 拥有 它 自 己 的 aa 和 
Content-Transfer-Encoding 行 。 

2. 消息 传输 

很 多 年 来 ， 从 主机 到 主机 传递 的 大 部 分 电子 邮件 都 只 使 用 SMTP。 虽 然 SMTP 仍然 
扮演 着 核心 角色 ,但 现在 它 只 是 多 个 协议 中 的 一 种 ， 因 特 网 消息 访问 协议 (nternet Mes- 
sage Access Protocol, IMAP) 和 邮局 协议 (Post Office Protocol, POP) 成 为 另外 两 个 重 
要 的 读 取 邮件 消息 的 协议 。 我 们 的 讨论 从 SMTP 开始 ， 后 面 会 转向 IMAP, 

为 了 把 SMTP 放 在 正确 的 环境 中 ， 我 们 需要 标识 关键 的 角色 。 首 先 ， 当 用 户 编 写 、 
存档 、 检 索 和 阅读 邮件 时 ， 他 们 要 与 邮件 阅读 器 (mail reader) 交互 。 有 无 数 可 用 的 邮件 
阅读 器 ， 就 像 有 很 多 可 选择 的 Web 浏览 器 一 样 。 在 因特网 的 早期 ， 用 户 一 般 登录 到 其 邮 
jä (mailbox) 所 在 的 主机 ， 他 们 所 调用 的 邮件 阅读 器 是 一 个 从 文件 系统 中 读 取 消息 的 本 
地 应 用 程序 。 当 然 ， 现 在 用 户 通过 笔记 本 电脑 或 智能 手机 远程 访问 他 们 的 邮箱 ， 而 并 不 是 
先 登 录 到 存储 邮件 的 主机 (邮件 服务 器 )。 从 邮件 服务 器 远程 下 载 邮件 到 用 户 设 备 时 使 用 

一 个 邮件 传输 协议 ， 如 POP 或 IMAP, 

第 二 ， 在 每 台 承 载 邮箱 的 主机 上 运行 一 个 邮件 后 台 处 理 程序 (mail daemon) (或 进 
程 )。 你 可 以 想象 这 个 处 理 程序 扮演 着 邮局 的 角色 ， 也 称 为 消息 传送 代理 (message trans- 
fer agent, MTA): 邮件 阅读 器 将 它们 想 发 送 给 其 他 用 户 的 消息 交 给 邮件 后 台 处 理 程序 ， 

这 个 邮件 后 台 处 理 程序 使 用 运行 在 TCP 之 上 的 SMTP 传输 消息 到 另 一 台 计 算 机 上 的 邮件 
吾 台 处 理 程序 ， 并 且 邮 件 后 台 处 理 程序 将 收 到 的 消息 放 入 用户 的 邮箱 中 〈 那 里， 用 户 的 邮 





件 阅 读 器 随后 能 发 现 消 息 ) 。 由 于 SMTP 是 一 种 任何 人 都 能 实现 的 协议 .因此 从 理论 上 讲 
可 以 有 许多 不 同 的 邮件 后 台 处 理 程序 的 实现 。 然 而 ， 事 实 是 只 有 少数 流行 的 实现 ， 其 中 来 
Á Berkeley UNIX 和 postfix 的 老 的 sendmail 程序 是 传播 最 广 的 。 

虽然 发 送 方 计 算 机 上 的 sendmail 程序 建立 一 个 到 接收 方 计 算 机 上 的 sendmail 程序 的 
SMTP/TCP 连接 的 确 是 可 能 的 ， 但 在 很 多 情况 下 邮件 要 穿越 从 发 送 方 主机 到 接收 方 主机 
的 路 径 上 的 一 个 或 多 个 邮件 网 关 (mail gateway)。 像 端 主机 一 样 ， 这些 网 关 也 运行 一 个 
sendmail 进程 。 这 些 中 间 市 点 称 作 网 关 并 非 偶 然 ， 因 为 它们 的 工作 就 是 存储 和 转发 邮件 消 
息 ， 很 像 “IP 网 关 ”( 就 是 我 们 所 说 的 路 由 器 〉 存储 和 转发 IP 数据 报 。 它 们 仅 有 的 差别 是 
邮件 网 关 通 常 把 消息 缓存 在 磁盘 上 并 上 且 在 几 天 之 内 不 断 尝 试 再 传送 到 下 一 台 计 算 机 上 ， 而 
IP 路 由 器 把 数据 报 缓存 在 内 存 中 并 且 只 在 转瞬 之 间 再 尝试 传送 它们 。 图 9- 1 说 明 一 个 从 发 
送 方 到 接收 方 的 两 跳 的 路 径 。 
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图 9-1 一 系列 邮件 网 关 存储 和 转发 电子 邮件 消息 





你 可 能 会 问 ， 邮 件 网 关 是 必需 的 吗 ? 为 什么 发 送 方 主机 不 能 直接 将 消息 发 送 到 接收 方 
主机 ? 一 个 原因 是 接收 方 不 想 把 读 邮 件 的 特定 主机 包含 在 他 的 地 址 中 。 另 一 个 原因 是 ,在 
大 型 组 织 中 ， 邮 箱 服 务 受到 许多 不 同 计算 机 的 控制 。 例 如 ， 递交 给 Bob@cs. princeton. edu 
的 邮件 ， 首 先 被 送 到 普林斯顿 大 学 计算 机 科学 系 的 一 个 邮件 网 关上 ( 即 名 为 
cs. princeton. edu 的 主机 )， 然 后 被 转发 (这 涉及 第 二 个 连接 ) 到 Bob 今天 用 于 阅读 邮件 的 
那 台 计算 机 上 。 转 发 网 关 维 护 一 个 数据 库 ， 这 个 数据 库 将 用 户 映 射 到 他 们 当前 想 要 接收 邮 
件 的 计算 机 上 ， 发 送 方 不 必 知 道 这 台 计 算 机 的 名 字 ( 消 息 首 部 行 中 的 Received: 将 帮助 你 
跟踪 一 个 指定 消息 经 过 的 邮件 网 关 )。 另 一 个 原因 是 接收 方 计算 机 可 能 不 总 是 开机 的 ,在 
这 种 情况 下 邮件 网 关 将 保留 消息 直到 它 能 被 转发 出 去 

在 每 对 主机 之 间 使 用 一 条 独立 的 SMTP 连接 ， 以 使 消息 逐步 接近 接收 方 ， 与 路 径 上 
有 多 少 个 邮件 网 关 无 关 。 每 个 SMTP 会 话 涉及 在 两 个 邮件 后 台 处 理 程序 之 间 的 对 话 ， 一 
个 充当 客户 而 另 一 个 充当 服务 器 。 在 一 次 会 话 期 间 两 台 主 机 可 能 会 传送 多 条 消息 。 央 为 
RFC 822 使 用 ASCII 作为 基本 表达 形式 来 定义 消息 ， 所 以 得 知 SMTP 也 是 基于 ASCH 的 
就 不 足 为 奇 了 ， 这 意味 人 们 假扮 SMTP 客户 程序 是 可 能 的 。 

理解 SMTP 的 最 好 方法 是 通过 一 个 简单 的 例子 。 下 面 是 在 发 送 主机 cs. princeton. edu 
和 接收 主机 cisco. com 之 间 的 一 次 交换 。 在 此 情况 下 ,普林斯顿 大 学 的 用 户 Bob 尝试 发 送 
一 个 邮件 给 Cisco 公司 的 Alice 和 Tom, H cs. princeton. edu 发 出 的 行 用 黑体 显示 ,而 由 
cisco. com 发 出 的 行 用 斜体 显示 ， 添 加 额外 的 空白 行 是 为 了 使 对 话 更 易 读 。 
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HELO cs.princeton.edu 


50 Hello daemon@mail.cs.princeton.edu [128.12.169.24] 
MAIL FROM:<Bob@cs.princeton.edu> 
250 OK 


RCPT TO:<Alice@cisco.com> 
250 OK 


RCPT T0:<Tom@cisco.com> 


550 Ne uch user here 

DATA 

54 Start mail input; end with <CRLF>.<CRLF> 
Blah blah blah... 


etc, ete. ete. 
<CRLF>.<CRLF> 


正如 你 能 看 到 的 ，SMTP 在 客户 和 服务 器 之 间 包 含 一 系列 交换 。 在 每 一 次 交换 中 客户 
提交 一 个 命令 (如 HELO、MAIL、RCPT、DATA、QUIT) ， 服 务 器 以 一 个 代码 来 响应 
(如 250、550、354、221)。 服 务 器 也 返回 对 代码 的 可 读 性 解释 (如 No such user here). 
在 这 个 特例 中 ， 客 户 首先 用 HELO 命令 向 服务 器 标识 自己 。 它 把 自己 的 域名 作为 参数 ， 
服务 器 验证 这 个 域名 是 否 对 应 于 TCP 连接 所 使 用 的 IP 地 址 。 你 将 注意 到 服务 器 会 向 客户 
声明 该 IP 地 址 。 然 后 客户 询问 服务 器 是 否 愿 为 两 个 不 同 的 用 户 接收 邮件 ， 服 务 器 通过 对 
一 个 说 “YES” 而 对 另 一 个 说 “NO” 来 响应 。 然 后 客户 发 送 消息 ， 并 使 用 只 有 一 个 圆 点 
C“.") 的 行 作为 消息 的 结束 。 最 后 ， 客 户 终止 连接 。 

当然 还 有 很 多 其 他 的 命令 和 返回 代码 。 例 如 ， 服 务 器 可 用 代码 251 来 响应 客户 的 
RCPT 命令 ， 它 表明 用 户 在 该 主机 上 没有 邮箱 ， 但 服务 器 允诺 将 该 消息 转发 到 另 一 个 邮件 
后 台 处 理 程序 。 换 名 话说 ， 主 机 行使 邮件 网 关 的 职能 。 另 一 例子 ， 客 户 能 发 出 VRFY 操 
作 命令 来 验证 用 户 的 电子 邮件 地 址 ， 但 实际 却 没 给 该 用 户 发 送 消息 。 

其 他 应 注意 的 是 MAIL 和 RCPT 操作 的 参数 。 例 如 ， 分 别 有 FROM: <Bob@cs. 
princeton. edu 二 和 TO: <Alice@cisco. com 二 ， 这 些 看 上 去 很 像 822 的 首部 字段 MA 
某 种 意义 上 也 就 是 如 此 。 实 际 情况 是 邮件 后 台 处 理 程序 解析 消息 ， 以 抽取 运行 SMTP 所 
需 的 信息 。 抽 取 的 信息 构成 消息 的 信封 (envelope), SMTP 客户 使 用 该 信封 作为 与 
SMTP 服务 器 交换 的 参数 。 从 历史 上 看 ，sendmail 变 得 如 此 流行 的 原因 是 没有 人 想 重新 实 
现 消息 解析 功能 。 虽 然 今 天 的 电子 邮件 地 址 看 上 去 非常 好 用 (如 Bob@cs. princeton. edu), 
但 情况 并 不 总 是 如 此 。 在 因特网 流行 之 前 ， 一 个 诸如 格式 user% host@site! neighbor 的 
电子 邮件 地 址 并 不 罕见 。 

3. 邮件 阅读 器 

最 后 一 步 是 用 户 从 邮箱 中 实际 接收 消息 ， 阅 读 、 回 复 并 可 能 保存 一 份 副本 以 备 将 来 参 
考 。 用 户 通 过 与 邮件 阅读 器 的 交互 来 完成 这 些 行为 。 如 前 所 述 ， 这 个 阅读 器 最 初 只 是 一 个 
与 用 户 邮 箱 运行 在 同一 台 计 算 机 上 的 程序 ， 在 这 种 情况 下 ， 它 只 是 简单 地 读 写 实现 邮箱 的 
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文件 。 这 是 在 笔记 本 电脑 时 代 之 前 的 常见 情况 。 现 在 ,用 户 多 数 从 远程 机 器 上 访问 邮箱 ， 


但 要 使 用 其 他 协议 ， 如 POP 或 IMAP, 
但 讨论 访问 协议 一 定 在 我 们 的 范围 之 内 。 

IMAP 在 许多 方面 类 似 于 SMTP. € 
是 一 个 运行 在 TCP 之 上 的 客户 端 /服务 器 
协议 ， 这 里 客户 端 (运行 在 用 户 的 仙 面 计 
算 机 上 ) 发 出 以 CRLF》 结束 的 ASCI X 
本 行 命令 ， 而 邮件 服务 器 (运行 在 维护 用 
户 邮箱 的 计算 机 上 ) 做 出 响应 。 交 互 以 客 
户 认证 自己 的 身份 开始 ， 并 确定 他 要 访问 
的 邮箱 。 这 可 以 表示 成 如 图 9-2 所 示 的 简单 
状态 转换 图 。 在 这 个 图 中 ，LOGIN、AU- 
THENTICATE, SELECT, EXAMINE, 
CLOSE ffl LOGOUT 是 客户 能 发 出 的 命令 


的 例子 ，OK 是 服务 器 的 一 种 可 能 的 响应 。 
其 他 的 常见 命令 包括 FETCH, STORE, 


DELETE 和 EXPUNGE， 其 含义 不 言 而 
喻 。 另 外 的 服务 器 响应 包括 NO (客户 没 
有 权利 执行 该 操作 ) 和 BAD (命令 的 格式 
JE YE). 

当 用 户 请 求 FETCH ( 读 取 ) 一 条 消息 


时 ， 服 务 器 就 以 MIME 格式 返回 它 ， 然 后 
由 邮件 阅读 器 解码 。 除 消息 本 身 之 外 ， 


IMAP 也 定义 一 组 消息 属性 (attribute)， 
这 些 属性 作为 其 他 命令 的 一 部 分 进行 交换 ， 
独立 于 传输 消息 本 里。 消息 属性 包括 消息 
大 小 等 更 有 意思 的 是 消息 相关 的 各 
种 标志 (flag)， 如 Seen, Dele- 
ted 和 Recent。 这 些 标志 用 于 保持 客户 


ae 


Answered, 


删除 的 消息 ， 客 户 发 出 
所 有 之 前 被 删除 的 消息 。 


最 后 ， 注 意 当 用 户 回 复 一 条 消息 或 发 送 


与 服务 器 的 同步 ， 
删除 一 条 消息 时 ， 客 户 需 要 向 邮件 服务 需 报 告 这 一 事实 。 
一 个 EXPUNGE 命令 给 服务 器 ， 


-条 新 消息 时 ， 


讨论 用 户 邮 件 阅 读 器 的 接口 形式 超出 本 书 的 范围 ， 
我 们 特别 考虑 IMAP。 














连接 建立 d 
I BE | 
a) la 6) 
OEEO, ASEE 
未 认证 | 
(7) (4) 
一 Lss i 
已 认证 站 
(7) (5) | (6) 
a we | 
已 选择 | 一 | 
(7) | 
T 是 村 由 
退出 
1 





REP | 


(1) 没有 预 页 认证 的 连接 (OK 问候 ) 

(2) 经 过 预 认证 的 连接 (PREAUTH 问 候 ) 

(3) 拒绝 连接 (BYE 问 候 ) 

(4) LOGIN 或 AUTHENTICATE 命 令 成 功 

(5) SELECT 或 EXAMINE 命 令 成 功 

(6) CLOSE 命令 、 失 败 的 SELECT 或 EXAMINE 命 令 
(7) LOGOUT 命 令 ， 服 务 器 关闭 或 连接 关闭 


图 9-2 IMAP 的 状态 转换 图 


就 是 说 ， 当 用 户 在 邮件 阅读 器 上 
随后 ， 如 果 用 户 决定 清除 所 有 被 
服务 器 便 知 道 从 邮箱 中 彻底 删除 


邮件 阅读 器 并 不 使 用 IMAP 从 


客户 向 邮件 服务 器 转发 消息 而 使 用 SMTP。 这 意味 着 用 户 的 邮件 服务 器 实际 上 是 作为 从 桌 
面 到 接收 方 邮 箱 的 传输 路 径 上 的 第 一 个 邮件 网 关 。 


9.1.2 万 维 网 (HTTP) 
万 维 网 已 经 取得 很 大 的 成 功 并 且 使 得 

看 起 来 像 是 因特网 的 同义词 。 事 实 上 ， 

于 因特网 成 为 广泛 部 署 的 系 


如 此 多 的 人 都 能 访问 因特网 ， 
形成 Web 的 系统 设计 大 约 从 1989 年 开始 ， 远 远 晚 
统 的 时 间 。Web 的 最 初 目 标 是 找到 组 织 和 抽取 信息 的 方法 ， 借 


以 至 于 万 维 网 有 时 
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用 超 文 本 的 思想 一 一 相互 链接 的 文档 〈 这 种 思想 至 少 在 20 世纪 60 年 代 就 存在 了 )S 。 

一 个 有 助 于 理解 Web 的 思路 是 : Web 是 一 组 相互 协作 的 客户 端 与 服务 恬 ， 所 有 成 员 
说 的 是 同一 种 语言 ，HTTP。 大 多 数 人 接触 Web 是 通过 图 形 化 的 客户 程序 或 Web 浏览 器 ， 
例如 Safari, Chrome, Firefox 或 Internet Explorer, KI 9-3 展示 了 使 用 Firefox 浏览 器 显 
示 来 自 普林斯顿 大 学 的 一 页 信息 。 
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图 9-3 Firefox Web 浏览 器 


显然 ， 如 果 想 将 信息 组 织 成 由 相互 链接 的 文档 或 对 象 组 成 的 系统 ， 你 需要 从 获取 一 个 
文档 开始 。 因 此， 任何 一 个 Web 浏览 器 都 有 允许 用 户 打 开 URL 的 功能 。URL 对 大 多 数 
人 来 说 是 如 此 熟悉 ， 以 至 于 容易 忘记 它们 不 是 一 直 存 在 的 。URL 提供 有 关 Web 上 对 象 位 
置 的 信息 ， 它 们 看 起 来 有 如 下 形式 : 

http://www. cs. princeton. edu/index. html 
如 果 你 打开 这 个 特定 的 URL， 你 的 Web 浏览 器 将 打开 一 个 到 称 为 www. cs. princeton. edu 
的 计算 机 上 的 Web 服务 器 的 TCP 连接 ， 立 刻 获 取 并 显示 名 为 index. html 的 文件 。Web 
上 的 多 数 文件 包含 图 像 和 文本 ， 有 些 还 有 音频 或 视频 片段 等 。 它 们 也 经 常 包含 指向 其 他 文 
件 的 URL., mi Web 浏览 器 会 通过 某 种 办 人 别 这 些 URL 对 象 并 要 求 浏览 器 打 
开 它 们 (一般 通 过 高 亮 方式 或 在 文本 下 加 下 划 线 )。 这 些 骨 入 的 URL 称 为 超 文 本 链接 
(hypertext link)。 当 你 要 求 Web py ye Ast] FP ik stim AMY URL 之 一 〈 即 用 鼠标 指向 它 并 单 





S 万 维 网 联盟 所 提供 的 Web 简 史 可 追溯 到 1945 年 的 一 篇 描述 缩微 胶片 文档 之 间 链 接 的 文章 。 
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击 ) 时 ， 它 将 打开 一 个 新 的 连接 并 取 回 和 显示 一 个 新 文件 。 这 称 为 跟随 链接 (following a 
link) 。 因 此 在 网 络 范围 内 很 容易 从 一 台 计 算 机 跳 到 另 一 台 计 算 机 ， 并 得 到 各 种 类 型 的 信 
息 。 一 旦 你 设法 在 一 个 文档 中 嵌入 一 个 链接 ， 并 人 允许 用 户 跟 随 该 链接 来 得 到 另 一 个 文档 ， 
你 就 有 了 超 文 本 系统 的 基础 。 

当 你 选择 查看 一 个 网 页 时 ， 你 的 浏览 器 〈 客 户 端 ) 使 用 运行 在 TCP 之 上 的 HTTP 从 
服务 器 上 获取 网 页 。 像 SMTP 一 样 ，HTTP 是 面向 文本 的 协议 。 本 质 上 .每 个 HTTP 消 
息 有 通用 的 格式 

START_LINE <CRLF> 

MESSAGE_HEADER <CRLF> 

《CRLF> 

MESSAGE_BODY 《CRLF> 
和 从 前 一 样 ,，〈 CRLF) 代表 回 车 十 换行 。 第 一 行 (START_LINE) 指出 这 是 一 个 请 求 消 
息 还 是 一 个 响应 消息 。 实 际 上 ， 它 识别 一 个 要 执行 的 “远程 过 程 ” (在 请 求 消息 的 情况 
下 )， 或 识别 一 个 请 求 的 状态 (status) (在 响应 消息 的 情况 下 ) 。 下 面 的 若干 行 说 明 一 些 限 
定 请 求 或 响应 的 选项 和 参数 。 可 以 有 零 个 或 多 个 MESSAGE _ HEADER 行 ， 它 们 以 一 个 
空白 行 结束 ， 每 行 看 起 来 都 像 电子 邮件 消息 中 的 首部 行 。HTTP 定义 了 许多 可 能 的 首部 类 
型 ， 它 们 中 的 一 些 属于 请 求 消息 而 另 一 些 属于 响应 消息 . 还 有 一 些 属于 消息 主体 中 携带 的 
数据 。 我 们 只 给 出 几 个 有 代表 性 的 例子 而 不 是 给 出 所 有 可 能 的 首部 类 型 。 最 后 ， 在 空白 行 
之 后 是 请 求 的 内 容 (MESSAGE _ BODY)， 请 求 消息 中 的 这 一 部 分 通常 是 空 项 . 

HTTP 为 什么 运行 在 TCP 上 ?并非 必 须 如 此 . 但 TCP 确实 能 很 好 地 匹配 HTTP 的 
需求 ， 即 提供 了 可 靠 传 输 ( 谁 希望 得 到 丢失 了 数据 的 网 页 呢 )、 流 量 控制 和 拥塞 控制 。 然 
而 ， 就 像 我 们 将 在 后 面 看 到 的 ， 在 TCP 上 构建 一 个 请 求 / 响 应 协议 会 引起 一 些 问题 ， 特别 
是 如 果 你 忽略 了 应 用 层 协议 与 传输 层 协议 之 间 交 互 的 微妙 之 处 。 

1. 请 求 消 息 

HTTP 请 求 消息 的 首 行 说 明 三 件 事 : 应 完成 的 操作 、 应 完成 操作 所 针对 的 网 页 和 所 用 
的 HTTP 版 本 。 虽 然 HTTP 定义 了 分 
类 广泛 的 可 能 的 请 求 操 作 ， 包 括 允 许 把 
一 个 网 页 投递 到 服务 器 上 的 写 (write) 


表 9-1 HTTP 请 求 操作 





操 作 fi 述 





























i OPTIONS 请 求 关 于 可 用 选项 的 信息 
操作 ， ESAS GET (3 GET | 获得 由 URL 标识 的 文档 
取 指 定 的 网 页 ) 和 HEAD (获取 指定 网 HEAD | 获得 由 URL 标识 的 文档 的 状态 信息 
页 的 状态 信息 ) 。 前 者 显然 在 浏览 器 想 取 POST | 递交 信息 〈 如 注释 ) 到 服务 器 
回 和 显示 一 个 网 页 时 使 用 。 后 者 用 来 测 PUT __ sit u TEREE 
MBC HERS aa EE a 

ew TRACE 回 送 请 求 消息 

个 特定 网 页 在 上 次 浏览 器 获取 后 是 否 被 CONNECT 由 代理 使 用 





修改 过 。 表 9-1 总 结 了 全 部 操作 。POST 
命令 引起 了 因特网 上 的 很 多 恶作剧 (包括 垃圾 邮件 )， 这 听 起 来 很 无 率 。 
例如 ，START_LINE 


n é 
' GET http://www.cs.princeton.edu/index.htm] 
HTTP/1.1 


说 明 客 户 想 要 让 主机 www. cs. princeton. edu 上 的 服务 器 返回 一 个 名 为 index. html 的 网 
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页 。 这 个 特例 使 用 一 个 绝对 的 (absolute) URL。 也 有 可 能 使 用 一 个 相对 的 (relative) 标 
识 并 在 MESSAGE-HEADER 行 中 指定 主机 名 ， 比 如 ， 


GET index.html HITP/1.1 


Host: www.cs.princeton.edu 
其 中 Host 是 可 能 的 MESSAGE_HEADER 字段 之 一 ， 这 些 字段 中 更 有 趣 的 是 If Modified- 
Since， 它 给 出 一 种 使 客户 有 条 件 地 请 求 一 个 网 页 的 办 法 ， 即 只 有 在 首部 行 指定 的 时 间 以 
后 有 人 修改 过 该 网 页 时 ， 服 务 咒 才 返 回 该 网 页 。 

2. 响应 消息 

像 请 求 消息 一 样 ， 响 应 消息 也 以 一 个 单一 的 START_LINE 行 作为 开始 。 在 这 种 情况 
下 ， 此 行 说 明 所 使 用 的 HTTP 版本， 三 位 代码 指示 请 求 是 否 成 功 ， 并 且 用 一 个 文本 串 给 
出 这 种 响应 的 原因 。 例 如 : START_LINE 

HTTP/1.1 202 Accepted 
指出 服务 器 能 够 满足 要 求 ， 而 

HTTP/1.1 404 Not Found 
指出 因为 网 页 没有 找到 而 不 能 满足 该 请 求 。 响 应 代码 有 五 种 通用 类 型 ， 代 码 的 第 一 位 指明 
其 类 型 。 表 9-2 总 结 了 五 种 代码 。 

表 9-2 HTTP 的 五 类 结果 代码 























代 码 类 型 原因 示例 
] xx 信息 接收 请 求 ， 继 续 处 理 
2xx 成 功 行为 被 成 功 接收 、 理 解 和 接受 
3xx 重 定向 为 完成 请 求 所 需 的 进一步 的 行为 
4xx 客户 错误 请 求 语法 错 或 请 求 不 能 实施 
5xx 服务 器 错误 服务 器 不 能 响应 一 个 显然 有 效 的 请 求 





就 像 POST 请 求 消息 那些 非 预期 的 结果 一 样 ， 有 时 人 们 会 惊讶 于 实际 中 如 何 使 用 不 同 
的 响应 消息 。 例 如 ， 通 过 将 请 求 重 定向 到 附近 的 缓存 ， 请 求 重 定 向 《代码 是 302) 成 为 在 
内 容 分 发 网 络 (Content Distribution Networks, CDN) 中 扮演 重要 角色 的 强大 机 制 〈 见 
9.4.3 47). 

与 请 求 消息 类 似 ， 响 应 消息 也 能 包含 一 个 或 多 个 MESSAGE _ HEADER ff. ix 4647 
传递 返回 给 客户 的 附加 信息 。 例 如 Location 首部 行 说 明 所 请 求 的 URL 在 男 一 个 位 置 是 可 
用 的 。 因 此 ， 如 果 普 林 斯 顿 大 学 计算 机 科学 系 的 网 页 已 经 从 http://www. cs. prince- 
ton. edu/index. html 移 到 了 http://www. princeton. edu/cs/index. html， 则 原来 地 址 的 服 
务 带 可 以 响应 如 下 : 

HTTP/1.1 301 Moved Permanently 

Location: http://www.princeton.edu/cs/index.html] 

通常 情况 下 ， 响 应 消息 也 将 携带 请 求 的 页 面 。 这 个 页 面 是 一 HTML 文档 ， 但 是 
因为 它 可 以 带 有 非 文本 数据 (如 GIF 图像)， 所 以 它 使 用 MIME 编码 ( 见 9.1.1 节 )。 
某 些 MESSAGE_HEADER 行 给 出 页 面 内 容 的 属性 ， 包 括 Content-Length (内 容 的 字 
WRO. Expires (内 容 失 效 的 时 间 ) 和 Last-Modified (内 容 在 服务 器 上 被 修改 的 最 后 
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时 间 )。 

3. 统一 资源 标识 符 

HTTP 将 URL 作为 地 址 ， 它 是 统一 资源 标识 符 (Uniform Resource Identifier. URI) 
的 一 种 。URI 是 一 个 标识 资源 的 字符 串 ， 资 源 可 以 是 具有 标识 的 文档 、 图 像 或 服务 等 的 任 
何 内 容 。 

URI 的 格式 允许 将 多 种 更 专用 的 资源 标识 符 集成 到 标识 符 的 URI 空间 中 。URI 的 第 
一 部 分 是 大 纲 (scheme)， 它 命名 表示 特定 种 类 的 资源 的 特定 方法 ， 如 将 mailto 用 于 电子 
邮件 地 址 ， 将 file 用 于 文件 名 。URI 的 第 二 部 分 与 第 一 部 分 用 分 号 隔 开 ， 是 特定 于 大 纲 的 
部 分 (scheme-specific part) 。 它 是 符合 第 一 部 分 中 大 纲 的 资源 标识 符 ， 例 如 下 面 的 URI 


mailto:santa@northpole.org 


和 


file:///C:/foo.html 

资源 不 必 可 获取 或 可 访问 。 我们 看 一 个 7.1.3 节 中 的 例子 一 一 可 扩展 标记 语言 
(XML) 命名 空间 是 由 类 似 URL 的 URI 标识 的 , 但 严格 地 讲 ， 它 们 并 不 是 定位 符 doca- 
tor)， 因 为 它们 并 没有 告诉 你 如 何 定位 任何 内 容 ， 它 们 只 是 为 那个 命名 空间 提供 一 个 全 球 
唯一 的 标识 符 ， 并 不 要 求 作 为 XML 文档 的 目标 命名 空间 的 URI 获取 任何 内 容 。 我 们 将 在 
9. 2. 1 节 看 到 另 一 个 非 URL 的 URI 实例 。 

4. TCP 连接 

HTTP 的 最 初版 本 (1.0) 分 别 为 每 一 个 从 服务 器 接 获 取 数 据 项 建立 一 个 单独 的 TCP 
连接 。 不 难看 到 这 是 一 种 多 么 低 效 的 机 
制 ， 即使 客户 想 做 的 只 是 检验 是 否 有 一 
个 网 页 的 最 新 拷贝 ， 也 不 得 不 在 客户 端 


和 服务 器 之 间 交 换 建 立 连接 和 拆除 连接 SYN+ACK 
的 消息 。 shee eh eee 
和 12 个 图 标 或 其 他 小 图 像 的 网 页 将 导致 1 服务 器 处 


建立 和 关闭 13 个 单独 的 TCP 4. Al HTTP 响 应 理 请 求 
9-4 显示 了 获取 只 有 一 个 艇 入 对 象 的 页 面 
的 事件 序列 。 粗 线 表示 TCP 消息 ， 而 细 /客户 
线 表 示 HTTP 请 求 和 响应 。 (有 些 TCP 
ACK 没有 显示 出 来 ， 以 防止 图 变 得 混 


客户 端 服务 器 


SYN+ACK 


AL.) 你 能 看 到 ， 两 个 往返 时 间 用 于 建立 人 


TCP 连接 ， 而 另外 两 个 〈 至 少 ) 用 于 获 
取 页 面 和 图 像 。 除 了 延迟 的 影响 ,服务 
带 上 也 需要 用 于 人 处理 额外 TCP 连接 建立 
和 终止 的 处 理 开 销 。 

为 了 改变 这 种 情况 ，HT 了 TP 版 本 1.1 
S| A T 4 A i 4% (persistent connec- 
tion)， 即 客户 端 和 服务 器 能 够 在 同一 个 图 9-4 HTTP 1.0 的 行为 


HTTP 获 取 


] 服务 器 处 
理 请 求 
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TCP 连接 上 交换 多 个 请 求 /响应 消息 。 持 久 连 接 许多 优点 。 第 一 ， 它 明显 地 消除 了 连接 建 
er eens one 

立 的 开销 ， 从 而 降低 因 额 外 的 TCP 分 组 所 mea eae 
引起 的 服务 器 负载 和 网 络 负载 以 及 用 户 可 察 FTP 获取 

觉 的 延迟 。 第 二 ， 由 于 用 户 可 在 一 个 TCP 有 器 


, ‘ 了 了 响应 “处理 请 ; 
连接 上 传送 多 个 请 求 消息 ， 所 以 TCP 拥塞 po i oic 


窗口 机 制 也 能 更 有 效 地 工作 ， 这 是 因为 它 不 客户 端 
需要 为 每 个 页 面 经 历 慢 启动 阶段 。 图 9-5 m “解析 响应 





HTTP 获 取 
示 了 图 9-4 中 的 事务 在 连接 已 经 打开 (这 可 ee 
能 是 由 于 前 面 访问 过 同一 台 服 务 器 ) 的 情况 HTTP A abst 
下 使 用 一 个 持久 连接 。 onl 


然而 ， 持 和 久 连 接 并 不 是 无 代价 的 ， 问 题 
是 客户 端 和 服务 器 都 不 一 定 知道 一 个 特定 
TCP 连接 需要 保持 多 长 时 间 。 这 对 于 服务 器 来 说 更 为 关键 ， 它 可 能 被 要 求 为 上 千 个 客户 
保持 打开 的 连接 。 解 决 方案 是 服务 器 必须 设 一 个 时 间 间 隔 ， 并 关闭 那些 在 一 定时 间 内 没有 
收 到 请 求 消息 的 连接 。 另 外 ,不 管 是 客户 端 还 是 服务 器 ， 都 必须 观察 另 一 端 是 否 已 选择 了 
关闭 连接 ， 而 且 它们 必须 使 用 该 信息 作为 关闭 本 端 连 接 的 信号 。 (回忆 一 下 ， 两 端 必须 都 
关闭 了 一 个 TCP 连接 之 后 ，TCP 才 会 完全 终结 。) 对 这 个 问题 的 考虑 增加 了 复杂 性 ， 这 可 
能 是 没有 一 开始 就 使 用 持久 连接 的 原因 ， 但 现在 人 们 普遍 认为 持久 连接 的 优点 比 缺 点 多 。 

5. 缓存 

现在 ， 因 特 网 的 一 个 最 有 具 活力 的 研究 (和 企业 技术 ) 领域 是 如 何 高 效 地 缓存 Web 网 
页 。 使 用 缓存 有 许多 好 处 。 从 客户 的 角度 看 ， 从 邻近 的 缓存 中 得 到 并 显示 网 页 比 从 世界 的 
男 一 端 获取 要 快 得 多 。 从 服务 器 的 角度 看 ， 用 缓存 截取 和 满足 请 求 将 降低 服务 器 的 负载 。 

可 在 不 同 地 方 实现 缓存 。 例 如 ， 用 户 浏览 器 可 缓存 近来 访问 过 的 页 面 ， 如 果 用 户 再 
次 访问 该 网 页 ， 则 简单 地 显示 缓存 的 拷贝 。 另 一 个 例子 是 网 站 可 支持 一 种 单一 网 站 范围 
的 缓存 ， 它 允许 用 户 利用 其 他 用 户 以 前 下 载 的 网 页 。ISP 靠近 因特网 的 中 间 ， 也 能 缓存 
页 面 。 注 意 ， 在 第 二 种 情况 下 ， 网 站 内 的 用 户 很 可 能 知道 哪 台 计算 机 正在 为 网 站 缓存 网 
页 ， 他 们 可 配置 自己 的 浏览 器 直接 连接 到 缓存 主机 。 这 种 节点 有 时 称 为 代理 (proxy), 
相反 ， 连 接 到 ISP 的 网 站 可 能 并 不 知道 ISP 正在 缓存 网 页 ， 这 可 能 发 生 在 来 自 各 个 网 站 
的 HTTP 请 求 恰好 通过 一 个 公共 ISP 路 由 器 的 情况 下 。 路 由 器 快速 查看 流 经 的 请 求 消息 ， 
并 注意 所 请 求 网 页 的 URL。 如 果 网 页 已 在 缓存 中 ， 则 返回 它 ;， 如 果 不 在 ， 将 请 求 转发 到 
服务 器 ， 并 监视 反方 向 而 至 的 响应 。 当 它 到 来 时 ， 路 由 器 将 保存 它 的 拷贝 以 希望 能 满足 以 
后 的 请 求 ” 。 

无 论 将 网 页 缓存 在 哪里 ， 重 要 的 是 缓存 网 页 的 能 力 ， 因 此 HTTP 的 设计 目标 之 一 是 
使 缓存 更 加 容易 。 技巧 是 缓存 需要 确保 不 用 过 期 版 本 的 网 页 响应 。 例 如 ， 服 务 器 为 每 个 送 
回 客户 〈 或 在 服务 器 和 客户 间 的 缓存 ) 的 网 页 指定 一 个 截止 日 期 (Expires 首部 字段 )。 组 
存 记 住 这 一 日 期 ， 并 且 知 道 在 到 期 前 每 次 请 求 都 不 需要 再 检查 网 页 。 到 期 后 (或 者 如 果 没 
有 设置 该 首部 字段 )， 缓 存 能 使 用 HEAD 或 有 条 件 的 GET 操作 (有 If-Modified-Since 首 


图 9-5 HTTP 1.1 的 持久 连接 行为 








日 这 种 缓存 存在 很 多 问题 ， 从 技术 问题 到 管理 问题 ， 技 术 挑 战 的 一 个 例子 是 当 发 给 服务 器 的 请 求 与 发 给 客户 的 
响应 不 使 用 相同 的 路 由 器 序列 时 ， 非 对 称 路 径 将 产生 的 影响 ， 





部 行 的 GET) 去 验证 它 有 没有 该 网 页 的 最 新 拷贝 。 更 常见 的 情况 是 ， 在 整个 请 求 /响应 链 
上 ， 所 有 缓存 机 制 必须 遵守 一 组 缓存 指示 (cache directives)， 这 些 指 示 说 明 一 个 文档 是 否 
能 被 缓存 、 可 缓存 多 长 时 间 、 一 个 文档 必须 有 多 新 ， 等 等 。 我 们 将 在 9.4.3 节 讨 论 CDN 
(CDN 是 高 效 的 分 布 式 缓存 ) 的 相关 问题 。 


9.1.3 Web 服务 


截至 目前 ， 我 们 已 经 研究 的 大 部 分 应 用 都 包含 人 类 与 计算 机 之 间 的 交互 。 例 如 ， 一 个 
人 用 Web 浏览 器 与 一 台 服 务 器 交互 ， 交 互 是 通过 对 来 自用 户 的 输入 (如 单 击 链接 ) 给 出 
响应 而 进行 的 。 然 而 ， 对 计算 机 到 计算 机 的 直接 交互 的 需求 越 来 越 多 。 并 且 ， 就 像 前 面 讲 
到 的 应 用 需要 协议 一 样 ， 直 接 通信 的 应 用 程序 之 间 也 需要 协议 。 在 本 节 中 ， 我 们 将 着 眼 于 
构建 大 量 应 用 到 应 用 协议 所 面临 的 挑战 以 及 已 提出 的 一 些 解决 方案 。 

使 应 用 程序 之 间 直 接 通信 的 主要 推动 力 来 自 商 业 领域 。 历 史上 ， 企业 (商业 或 其 他 组 
织 ) 之 间 的 交互 曾 包 含 一 些 手工 步骤 ， 如 填 订 单 或 打 电 话 确 认 某 个 商品 是 否 有 库存 。 即 使 
是 在 一 个 企业 内 ， 因 独立 开发 而 造成 不 能 直接 交互 的 软件 系统 之 间 包 含 手工 步骤 也 是 很 常 
见 的 。 这 种 手工 交互 正 渐 渐 地 被 应 用 之 间 的 直接 交互 所 取代 。 企 业 A 的 一 个 订单 应 用 可 能 
会 发 送 一 条 消息 到 企业 B 的 配 货 应 用 ， 配 货 应 用 会 立即 给 出 回应 来 说 明 是 否 能 够 满足 订 
单 。 如 果 B 无 法 满足 该 订单 ，A 的 应 用 会 立即 从 另 一 个 提供 商 那里 订货 或 请 多 个 提供 商 
竞标 。 

这 里 给 出 一 个 有 关 我 们 正在 讨论 话题 的 简单 例子 。 假 设 你 从 一 个 在 线 零 售 商 ， 如 Am- 
azon. com， 买 一 本 书 。 一 旦 你 的 书 被 寄 出 以 后 ，Amazon 会 用 电子 邮件 给 你 发 送 一 个 跟踪 
号 码 ， 然 后 你 就 会 转向 航运 公司 的 网 站 (也 许 是 http://www. fedex. com) FFARR A. 
然而 ， 你 也 可 以 直接 通过 Amazon. com 网 站 来 跟踪 包 庄 。 为 了 实现 这 个 功能 ，Amazon Y 
须 用 联邦 快递 (Fedex) 能 够 理解 的 格式 向 Fedex 发 送 查询 ， 然 后 解释 结果 ， 并 在 一 个 可 
能 包含 订单 信息 的 网 页 中 显示 该 结果 。 在 用 户 能 够 立即 在 Amazon. com 网 页 上 得 到 有 关 订 
单 的 所 有 信息 的 背后 是 Amazon 与 Fedex 必须 有 一 个 用 于 交换 跟踪 包 右 所 需要 信息 的 协 
议 一 一 称 为 包 于 跟踪 协议 (Package Tracking Protocol) 。 应 该 清楚 的 一 点 是 对 于 很 多 潜在 
的 这 类 协议 ， 我 们 最 好 有 一 些 工具 来 简化 定义 及 构建 它们 的 任务 。 

网 络 应 用 甚至 跨越 组 织 边界 的 应 用 并 不 是 新 事物 一 一 我 们 在 前 一 节 中 就 已 经 看 到 了 一 
些 例子 。 这 个 问题 的 一 个 新 着 眼 点 是 规模 ， 不 是 网 络 大 小 的 规模 ， 而 是 不 同 网 络 应 用 的 种 
类 数 的 规模 ， 诸 如 电子 邮件 和 文件 传输 的 传统 应 用 的 协议 规范 和 实现 一 般 是 由 网 络 专 家 小 
“组 开发 的 。 为 了 迅速 开发 大 量 潜在 的 网 络 应 用 ， 有 必要 推出 一 些 能 够 简化 和 自动 化 应 用 协 
议 设计 和 实现 的 技术 。 

人 们 已 经 提出 了 两 个 体系 结构 作为 该 问题 的 解决 方案 。 这 两 个 体系 结构 都 称 为 Web 
服务 (Web Services) ， 这 个 名 字 取 自 一 个 术语 ， 这 个 术语 指 的 是 为 客户 应 用 提供 远程 访问 
服务 从 而 构成 网 络 应 用 的 单个 应 用 SS 。 用 于 区 分 这 两 种 Web 服务 体系 结构 的 两 个 非 正 式 
的 简写 是 SOAP 和 REST (就 像 在 “SOAP 与 REST 的 争论 ”中 一 样 ) 。 我 们 将 简要 讨论 
那些 术语 的 技术 含义 。 

SOAP 体系 结构 解决 该 问题 的 方法 是 至 少 在 理论 上 使 得 为 每 一 个 网 络 应 用 生成 定制 协 





© 不 幸 的 是 ，Web 服务 听 起 来 太 通用 了 ， 以 至 于 很 多 人 会 错误 地 认为 它 包括 与 Web 相关 的 任何 服务 。 


Al 383 








议 成 为 可 能 。 这 个 方法 的 关键 组 件 包括 一 个 协议 规范 框架 、 根 据 协议 规范 自动 产生 协议 实 
现 的 软件 工具 ， 以 及 可 以 在 协议 间 重 用 的 模块 化 的 部 分 规范 。 

REST 体系 结构 解决 该 问题 的 方式 是 将 单个 Web 服务 当 作 万 维 网 资源 一 一 用 URI 标 
W. 通过 HTTP 访问 。 从 本 质 上 讲 ，REST 体系 结构 只 是 Web 体系 结构 。Web 体系 结构 
的 长 处 包括 稳定 性 和 可 证 明 的 可 扩展 性 〈 在 网 络 大 小 的 意义 上 )。HTTP 不 能 很 好 地 适应 
调用 远程 服务 的 一 般 过 程 性 模式 或 面向 操作 的 模式 ， 这 可 以 认为 是 它 的 一 个 弱点 。 然 而 
REST 倡导 丰富 的 服务 能 够 通过 使 用 HTTP 更 适用 的 更 面向 数据 的 模式 或 文档 传递 模式 
进行 发 布 。 

虽然 目前 对 这 两 种 结构 的 应 用 都 比较 活跃 ， 但 它们 还 是 太 新 ， 还 没有 现实 使 用 的 实验 
数据 。 二 者 竞争 的 方式 能 够 教 给 我 们 一 些 意义 深远 的 关于 网 络 应 用 的 知识 。 一 种 体系 结构 
也 许 会 占据 主导 地 位 ,或 者 它们 以 某 种 方式 融合 ， 或 者 我 们 可 能 发 现 一 种 体系 结构 更 适合 
某 些 类 的 应 用 而 另 一 种 体系 结构 则 更 适合 其 他 类 的 应 用 。 

1. 定制 应 用 协议 (WSDL. SOAP) 

非 正 式 地 称 为 SOAP 的 体系 结构 基于 Web 服务 描述 语言 (Web Services Description 
Language. WSDL) 和 SOAP® 。 这 两 个 标准 都 是 由 万 维 网 联盟 (World Wide Web Con- 
sortium, W3C) 发 布 的 。 这 就 是 人 们 通常 在 没有 任何 限定 语 的 情况 下 使 用 术语 Web 服务 
时 所 表示 的 体系 结构 。 这 些 标准 现在 依然 在 迅速 发 展 , 我 们 在 这 里 的 讨论 实际 上 是 一 个 


WSDL 和 SOAP 分 别 是 用 于 说 明和 实现 应 用 协议 和 传输 协议 的 框架 。 它 们 通常 一 起 
使 用 ， 虽 然 并 非 必 须 如 此 。WSDL 用 于 说 明 与 应 用 相关 的 细节 ， 如 支持 什么 操作 、 用 于 调 
用 或 响应 那些 操作 的 应 用 数据 的 格式 ， 以 及 操作 是 否 包含 响应 。SOAP 的 作用 是 使 定义 具 
有 所 期 望 的 〈 诸 如 可 靠 性 和 安全 性 方面 ) 特征 语义 的 传输 协议 变 得 简单 。 

WSDL 和 SOAP 主要 是 由 协议 规范 语言 组 成 。 它 们 都 基于 XML ( 见 7.1. 3 45). 3AE 
顾 对 诸如 桩 编译 顺和 目录 服务 等 的 使 用 。 在 有 很 多 定制 协议 的 环境 中 ， 对 自动 产生 实现 的 
支持 是 很 关键 的 ， 以 避免 手动 实现 每 一 个 协议 。 支 持 软件 一 般 采 用 第 三 方 厂商 开发 的 工具 
包 和 应 用 服务 器 的 形式 ， 这 就 允许 单个 Web 服务 的 开发 者 能 够 更 多 地 专注 于 他 们 需要 解 
决 的 业务 问题 (如 跟踪 客户 所 购买 的 软件 包 )。 

2. 定义 应 用 协议 

WSDL 选择 应 用 协议 的 过 程 操作 模型 。 抽 象 的 Web 服务 接口 由 一 组 命名 的 操作 组 成 ， 
每 一 个 操作 代表 客户 与 Web 服务 之 间 的 简单 交互 。 操 作 类 似 于 RPC 系统 中 的 远程 调用 过 
Fe. HA W3C 的 WSDL 入门 中 的 一 个 例子 是 旅馆 预订 Web 服务 ， 包括 Check Availability 
和 MakeReservation 两 个 操作 。 

每 一 个 操作 描述 了 给 出 消息 传输 序列 的 消息 交换 模式 (message exchange pattern, 
MEP), 包括 当 有 错误 打 断 了 消息 流 后 要 发 送 的 默认 消息 。 已 经 预定 义 了 几 个 MEP, thay 
以 定义 新 的 用 户 MEP， 但 在 实际 中 好 像 只 有 两 个 MEP 正在 使 用 : In-Only (从 客户 发 到 
服务 器 的 一 条 消息 ) 和 In-Out (来 自 客户 的 一 个 请 求 和 来 自 服务 器 的 响应 )。 这 些 模 式 应 
该 非常 类 似 ， 但 也 暗示 支持 MEP 灵活 性 的 代价 可 能 超过 了 其 带 来 的 好 处 。 





日 虽然 名 字 SOAP 最 初 是 一 个 首 字 十 缩写 词 ， 但 它 不 再 正式 代表 任何 东西 。 
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MEP 是 具有 占 位 符 而 不 是 特定 的 消息 类 型 或 格式 的 模板 ， 因 此 操作 定义 中 的 一 部 分 
要 指明 用 哪些 消息 格式 映射 到 模板 中 的 占 位 符 。 消 息 格式 的 定义 不 像 我 们 已 经 讨论 的 协议 
一 样 定 义 在 比特 级 ， 而 是 定义 为 使 用 XML 大 纲 ( 见 7.1.3 节 ) 的 抽象 数据 模型 。 XML 大 
岗 提供 了 一 个 基本 数据 类 型 集 以 及 定义 复合 数据 类 型 的 方法 。 符 合 XML 大 纲 定义 格式 
(抽象 数据 模型 ) 的 数据 能 够 用 XML 具体 表示 ,或 者 使 用 另 一 种 表示 方法 ， 如 “二 进 制 ” 
表示 Fast Infoset。 

WSDL 巧妙 地 将 能 够 抽象 描述 的 协议 部 分 (操作 、MEP、 抽 象 消息 格式 ) 与 必须 具 
体 定义 的 部 分 分 开 。WSDL 的 有 具体 部 分 定义 了 一 个 低层 协议 、MEP 如 何 映射 到 协议 ， 以 
及 消息 在 线 上 传输 时 使 用 什么 比特 级 的 表示 。 这 部 分 协议 称 为 绑 定 (binding)， 虽然 将 其 
描述 为 一 个 实现 或 一 个 到 实现 的 映射 更 好 。WSDL 已 经 为 HTTP 和 基于 SOAP 的 协议 预 
定义 了 绑 定 ， 也 包括 一 些 参数 ， 以 便 协 议 设 计 者 可 调节 到 协议 的 映射 。WSDL 有 一 个 用 于 
定义 新 绑 定 的 框架 ， 但 SOAP 协议 占 主 导 地 位 。 

WSDL 在 减轻 定义 大 量 协议 的 工作 量 方面 的 关键 是 复 用 基本 的 规范 模块 。Web 服务 
的 WSDL 规范 可 能 由 多 个 WSDL 文档 组 成 ， 单 个 WSDL 文档 可 用 于 其 他 Web 服务 规范 。 
这 种 模块 化 使 得 开发 规范 更 简单 ， 并 且 能 够 很 容易 地 确认 两 个 规范 是 否 有 相同 的 组 件 〈 例 
如 ， 它 们 可 以 由 相同 的 工具 来 支持 ) 以 及 那些 组 件 是 否 直 的 相同 .这 种 模块 化 以 及 WSDL 
的 默认 规则 也 有 助 于 避免 规范 对 于 协议 设计 者 来 说 太 宛 长 . 

对 于 开发 过 中 等 规模 软件 的 人 来 说 ， 应 该 很 熟悉 WSDL 模块 化 。 一 个 WSDL 文档 没 
有 必要 是 一 个 完整 的 规范 ， 例 如 ， 它 可 以 定义 一 个 消息 格式 或 者 一 个 特定 WSDL 接口 的 
绑 定 。 部 分 规范 通过 XML 命名 空间 ( 见 7.1.3 节 ) 被 唯一 标识 . 每 一 个 WSDL 文档 指明 
一 个 目标 命名 空间 (target namespace) 的 URI, 文档 中 的 任何 新 定义 都 在 那个 命名 空间 
上 下 文中 命名 。 一 个 WSDL 文档 可 以 通过 包含 (including) 第 二 个 有 相同 目标 命名 空间 的 
文档 或 导入 Cimporting) 有 不 同 目标 命名 空间 的 文档 来 集成 其 中 的 组 件 。 

3. 定义 传输 协议 

虽然 SOAP 经 常 称 为 一 个 协议 ， 但 最 好 将 其 看 成 一 个 协议 族 的 基础 或 者 一 个 定义 协议 
的 框架 。 正 如 SOAP 1.2 规范 中 的 解释 , “SOAP 提供 了 一 个 简单 的 消息 框架 ， 其 核心 功 
能 是 提供 可 伸缩 性 .”SOAP 使 用 许多 与 WSDL 相同 的 策略 包括 用 XML 大 纲 定义 消息 
格式 、 到 低层 协议 的 绑 定 、MEP 和 用 XML 命名 空间 标识 的 可 重用 规范 组 件 。 

SOAP 用 于 定义 具有 支持 特定 应 用 协议 所 需 特 性 的 传输 协议 。SOAP 的 目标 是 使 得 通 
过 可 复 用 组 件 定义 很 多 协议 变 得 可 行 。 每 个 组 件 捕 获 实 现 一 个 特定 特性 时 的 首部 信息 和 池 
辑 。 为 了 定义 一 个 具有 特定 特性 集 的 协议 ， 只 需要 组 合 相应 的 组 件 。 当 然 ， 也 没有 那么 简 
单 。 让 我 们 更 进一步 看 看 SOAP 的 这 个 方面 。 

SOAP 1.2 引 入 了 特性 (feature) 抽象 ， 其 描述 如 下 : SOAP 特性 是 SOAP 消息 框架 
的 扩展 。SOAP 并 没 限 制 潜在 特性 的 范围 ， 特 性 的 例子 包括 “可 靠 性 ” (reliability), “* 
At” (security), “AAAA” (correlation), “% i” (routing) 和 消息 交换 模式 (mes- 
sage exchange patterns，MEP)， 诸 如 请 求 / 响 应 、 单 向 和 对 等 会 话 。 一 个 SOAP 特性 规范 
必须 包括 : | 

。 一 个 标识 该 特性 的 URI. 

© 抽象 描述 的 状态 信息 和 处 理 过程 ， 每 个 SOAP 节点 实现 该 特性 时 需要 这 些 信息 。 





。 传递 到 下 一 个 节点 的 信息 。 
。 如 果 该 特性 是 MEP, 那么 将 交换 消息 的 生命 周期 和 临时 关系 /因果 关系 〈 例 如 ， 响 
应 跟 在 请 求 之 后 ， 并 且 被 发 送 到 请 求 的 发 起 者 ) 。 

注意 ， 这 种 协议 特性 概念 的 形式 化 是 非常 低层 的 ， 它 几乎 就 是 一 个 设计 。 

对 给 定 的 一 个 特性 集合 ， 有 两 种 策略 可 定义 实现 这 些 特性 的 SOAP 协议 。 一 种 是 分 
FA: 以 派生 特性 的 方式 将 SOAP 绑 定 到 低层 协议 。 例 如 ， 我 们 通过 将 SOAP 绑 定 到 HT- 
TP 来 获得 一 个 请 求 /响应 协议 ,将 SOAP 请 求 放 在 HTTP 请 求 中 , SOAP 响应 放 在 
HTTP 响应 中 。 因 为 这 是 一 个 非常 常见 的 例子 ， 因 此 SOAP 已 经 预定 义 为 与 HTTP RE, 
新 的 绑 定 可 以 通过 使 用 SOAP 协议 绑 定 框架 来 定义 。 

另 一 种 更 灵活 的 实现 特性 的 方式 包含 首部 块 (header 
block). SOAP 消息 由 信封 和 主体 组 成 ， 信 封包 含 由 首部 块 组 成 
的 首部 ,主体 包含 发 给 最 终 接 收 者 的 载荷。 该 消息 的 结构 在 图 
9-6 中 进行 了 说 明 。 

现在 ， 某 些 首部 信息 对 应 特定 的 特性 应 该 是 一 个 熟悉 的 说 
法 。 数 字 签 名 用 于 实现 认证 ， 序列 号 用 于 可 靠 性 ， 校 验 和 用 于 
检测 消息 错误 。SOAP 首部 块 的 目的 是 封装 对 应 特定 特性 的 首 
部 信息 。 这 种 对 应 不 总 是 一 对 一 的 ， 因 为 一 个 特性 可 能 涉及 多 
个 首部 块 ， 或 者 一 个 首部 块 用 于 多 个 特性 。SOAP 模块 (mod- 
ule) 是 针对 一 个 或 多 个 首部 块 的 语法 和 语义 的 规范 。 每 一 个 模块 用 于 提供 一 个 或 多 个 特 
性 ， 并 且 必 须 声 明 它 所 实现 的 特性 。 

SOAP 模块 的 深层 目标 是 能 够 通过 简单 地 包含 每 个 相关 的 模块 规范 来 组 合 一 个 具有 一 
组 特性 的 协议 。 如 果 协 议 至 多 需要 一 个 语义 和 认证 ， 那么 就 把 对 应 的 模块 包含 在 规范 中 。 
这 展示 了 一 种 协议 服务 模块 化 的 巧妙 方法 ， 是 我 们 在 整 本 书 中 看 到 的 协议 分 层 方法 的 替代 
方法 。 它 有 点 像 以 结构 化 的 方法 将 一 系列 协议 层 扁平 化 为 一 个 协议 。 至 于 SOAP 1. 2 中 引 
入 的 SOAP 特性 和 模块 在 实践 中 工作 的 如 何 还 有 待考 察 。 这 种 方案 的 一 个 主要 弱点 是 模块 
之 间 可 能 会 互相 干扰 。 模 块 规范 需要 指明 所 有 与 其 他 SOAP 模块 的 已 知 (known) XE, 
显然 这 对 于 解决 问题 没有 太 大 帮助 。 另 一 方面 ， 提 供 了 最 重要 特性 的 核心 特性 及 模块 集合 
可 能 足够 小 而 被 熟知 和 充分 理解 。 

4. Web 服务 协议 的 标准 化 

WSDL 和 SOAP 不 是 协议 ,它们 是 用 于 规范 (specifying) 协议 的 标准 。 对 于 相互 协 
作 来 实现 Web 服务 的 不 同 企业 ， 只 是 在 使 用 WSDL 和 SOAP 来 定义 它们 的 协议 这 一 点 上 
达成 一 致 还 是 不 够 的 ， 它 们 必须 在 具体 协议 上 达成 一 致 一 一 标准 化 。 例 如 ， 继 续 讨 论 在 本 
季 开 头 提 到 的 简单 包 庄 跟踪 示例 ， 你 可 以 想象 在 线 零售 商 和 航运 公司 可 能 希望 标准 化 一 个 
它们 用 来 交换 信息 的 协议 。 标 准 化 对 于 工具 支持 和 互 操 作 都 是 很 关键 的 。 然 而 ， 这 个 体系 
结构 中 的 不 同 网 络 应 用 至 少 在 消息 格式 和 所 使 用 的 操作 方面 存在 差异 。 

对 于 标准 化 与 定制 之 间 的 矛盾 ， 正 在 通过 建立 称 为 轮 廊 (profile) 的 部 分 标准 来 解 
决 。 轮 廓 是 一 个 指南 集合 ， 用 于 在 定义 协议 时 缩小 或 限制 所 参考 的 WSDL, SOAP 和 其 他 
标准 的 选择 范围 。 它 们 同时 也 会 解决 那些 标准 之 间 的 含混 和 差距 。 在 实际 中 ， 轮 廓 通常 标 
准 化 正在 出 现 的 事实 标准 。 











图 9-6 SOAP 消息 的 结构 
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应 用 最 广 和 最 多 的 轮廓 是 WS-I 基本 轮廓 (WS-I Basic Profile)。 该 轮廓 是 由 Web HE 
务 互 操作 组 织 (Web Services Interoperability Organization，WS-I) 提出 的 ， 它 是 一 个 行 
业 联 盟 ， 而 WSDL 和 SOAP 是 由 万 维 网 联盟 (World Wide Web Consortium. W3C) 定义 
的 。 基 本 轮廓 解决 了 定义 Web 服务 时 所 面临 的 最 基本 的 选择 。 最 值得 注意 的 是 ， 它 要 求 
WSDL 只 能 与 SOAP 绑 定 ，SOAP 只 能 与 HTTP 绑 定 ， 并 且 使 用 HTTP 的 POST H. 
它 还 指定 了 必须 使 用 的 WSDL 和 SOAP 的 版 本 。 

WS-I 基本 安全 轮廓 (WS-I Basic Security Profile) 通过 规定 如 何 使 用 SSL/TLS BV 
及 要 求 遵循 WS 安全 (WS-Security，Web 服务 安全 ) 来 为 基本 轮廓 增加 安全 限制 。WS 
安全 说 明了 如 何 使 用 各 种 不 同 的 现 有 技术 ， 如 X. 509 公 钥 证 书 (UL 8. 2. 1 节 ) 和 Kerberos 
(UL 8.3.3 节 ) 为 SOAP 协议 提供 安全 特性 。 

WS 安 全 只 是 一 套 由 行业 联盟 结构 化 信息 标准 发 展 组 织 (Organization for the Ad- 
vancement of Structured Information Standards, OASIS) 建立 的 不 断 扩 大 的 SOAP 级 标 
准 中 的 第 一 个 。 这 些 标准 统称 为 WS-* ,包括 WS-Reliability、WS-ReliableMessaging、 
WS-Coordination 和 WS-AtomicTransaction, 

5. 一 个 通用 的 应 用 协议 (REST) 

WSDL/SOAP Web 服务 体系 结构 的 基本 假设 是 ,集成 网 络 应 用 的 最 好 方法 是 使 用 为 
每 一 个 应 用 定制 的 协议 。 这 个 体系 结构 的 设计 日 标 是 使 得 定义 和 实现 那些 协议 成 为 可 能 . 
与 之 相 比 ，REST Web 服务 体系 结构 的 基本 假设 是 ,集成 网 络 应 用 的 最 好 方法 是 应 用 万 维 
网 体系 架构 的 模型 ( 见 9. 1. 2 节 )。 这 个 模型 是 由 Web 体系 架构 师 Roy Fielding 发 表 的 ， 
称 为 表述 性 状态 转移 (REpresentational State Transfer，REST)。 没有 必要 为 Web 服务 
定义 一 个 新 的 REST 结构 一 一 现 有 的 结构 是 适用 的 ,虽然 可 能 需要 做 一 些 扩展 。 在 Web 
体系 结构 中 ， 单 个 Web 服务 被 看 作用 URI 标识 并 通过 HTTP 访问 的 资源 一 一 带 有 单一 通 
用 寻 址 方案 的 单一 通用 应 用 协议 。 

WSDL 有 用 户 定义 的 操作 ， 而 HTTP 只 有 一 个 很 小 的 方法 集 ， 如 GET 和 POST ( 见 
表 9-1) 。 那 么 这 些 简单 方法 如 何 为 丰富 的 Web 服务 提供 接口 ? 通过 使 用 REST 模型 ， 复 
杂 性 从 协议 转移 到 载荷 。 载 荷 是 资源 抽象 状态 的 表示 。 例 如 ，GET 会 返回 资源 当前 状态 
的 表示 ，POST 则 会 发 送 资 源 的 一 个 期 望 状态 的 表示 。 

资源 状态 的 表示 是 抽象 的 。 它 没有 必要 模仿 一 个 特定 的 Web 服务 实例 实际 上 是 如 何 
实现 该 资源 的 。 没 有 必要 在 每 一 条 消息 中 传递 完整 的 消息 状态 。 可 以 通过 只 传递 感 兴趣 的 
(如 ， 只 是 正在 被 修改 的 部 分 ) 状态 来 减 小 消息 的 大 小 。 并 且 ， 因 为 Web 服务 与 其 他 Web 
资源 共享 一 个 协议 和 地 址 空间 ， 所 以 部 分 状态 能 够 通过 引用 (通过 URD 传递 ， 即 使 这 些 
状态 属于 其 他 Web 服务 。 

这 种 方法 最 好 被 总 结 为 与 过 程 模式 相对 的 面向 数据 或 文档 的 传递 模式 。 在 这 种 体系 结 
构 中 定义 应 用 协议 包括 定义 文档 结构 〈 即 状态 表示 )。XML 和 更 轻 载 的 JavaScript 对 象 表 
示 法 (JavaScript Object Notation, JSON) 是 最 常用 的 状态 表示 语言 ( 见 7.1 节 )。 互 操 
作 依 赖 于 Web 服务 与 其 客户 对 状态 表示 的 协商 。 当 然 ， 在 SOAP 中 也 是 这 样 的 ，Web 服 
务 和 其 客户 必须 在 载荷 格式 上 达成 一 致 。 不 同 的 是 ， 在 SOAP 结构 中 ， 互 操作 性 还 依赖 于 
对 协议 的 协商 。 在 REST 结构 中 ， 协 议 总 是 HTTP， 因 此 互 操作 问题 的 源头 被 消除 了 。 

REST 的 卖点 之 一 是 它 利 用 了 用 于 支持 Web 的 基础 设施 。 例 如 ，Web 代理 能 够 实施 
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安全 机 制 或 缓存 信息 。 现 有 的 内 容 分 发 网 络 (CDN) 可 用 于 支持 REST 应 用 。 

与 WSDL/SOAP 相 比 ，Web 已 经 历经 了 一 段 时 间 来 使 得 标准 变 得 稳定 并 证 明 它 具有 
良好 的 可 扩展 性 。 它 还 以 SSL/TLS 的 形式 提供 了 安全 性 。Web 和 REST 在 可 发 展 性 上 也 
有 优势 。 虽 然 WSDL 和 SOAP 框架 (framework) 在 定义 协议 时 能 够 添加 新 特性 ， 且 在 绑 
定 方面 高 度 灵 活 ， 但 一 旦 协议 被 定义 ， 这 种 灵活 性 就 不 相关 了 。 例 如 ，HTTP 的 标准 化 协 
议 在 设计 时 就 要 以 后 向 兼容 的 方式 提供 可 扩展 性 。HTTP 本 身 的 可 扩展 性 以 首部 、 新 方法 
和 新 内 容 类 型 的 方式 提供 。 使 用 WSDL/SOAP 的 协议 设计 者 需要 在 每 一 个 定制 协议 的 设 
计 中 提供 可 扩展 性 。 当然 ，REST 体系 结构 中 的 状态 表示 设计 者 还 要 在 设计 中 提供 可 发 
RHE. 

WSDL/SOAP 可 能 具有 优势 的 领域 是 修改 或 包装 之 前 的 传统 应 用 ， 使 之 符合 Web 服 
务 。 这 是 非常 重要 的 一 点 ， 因 为 至 少 在 不 久 的 将 来 ， 大 部 分 Web 服务 还 是 基于 传统 应 用 
的 。 这 些 应 用 通常 具有 过 程 化 的 接口 ， 更 容易 映射 为 WSDL 操作 而 不 是 REST KA. 
REST 与 WSDL/SOAP 的 竞争 可 能 与 为 单个 Web 服务 修改 REST 风格 接口 的 难 易 息 息 相 
关 。 我 们 可 能 会 发 现 有 些 Web 服务 用 WSDL/SOAP 更 好 ， 而 其 他 的 则 用 REST 更 好 。 

在 线 零售 商 Amazon. com 恰好 是 Web 服务 的 一 个 早期 (2002 年 ) 采纳 者 。 有 趣 的 
ge» Amazon 通过 这 两 种 Web 服务 体系 结构 来 提供 系统 的 公开 访问 ， 并 且 这 几 年 中 有 大 约 
80% 的 使 用 是 通过 REST 接口 。 当 然 ， 这 只 是 一 个 可 能 很 好 地 反映 了 特定 于 Amazon 因素 
的 数据 点 。 


9.2 多 媒体 应 用 

正如 前 一 节 的 传统 应 用 一 样 ， 像 音频 和 视频 会 议 那 样 的 多 媒体 应 用 需要 自己 的 协议 。 
在 设计 多 媒体 应 用 协议 方面 的 许多 最 初 经 验 来 自 MBone 工具 集 ， 诸 如 开发 用 于 MBone 的 
vat 和 vic 之 类 的 应 用 ，MBone 是 支持 IP 多 播 来 实现 多 方 会 议 的 覆盖 网 络 。 开 始 时 ， 每 个 
应 用 实现 自己 的 协议 〈 或 协议 族 )， 但 显然 ， 许 多 多 媒体 应 用 有 共同 的 需求 。 这 最 终 导 致 
需要 开发 用 于 多 媒体 应 用 的 一 些 通用 协议 。 

我 们 已 经 看 到 了 很 多 多 媒体 应 用 使 用 的 协议 。 实 时 传输 协议 (Real-time Transport 
Protocol, RTP) (在 5.4 节 中 描述 ) 提供 了 多 媒体 应 用 的 共有 功能 ， 如 传递 定时 信息 、 标 
识 应 用 的 编码 机 制 和 媒体 类 型 。 

资源 预 留 协议 (Resource Reservation Protocol. RSVP) (参见 6.5.2 节 ) 用 于 在 网 络 
上 请 求 分 配 资源 ， 以 便 能 够 为 一 个 应 用 提供 所 期 望 的 服务 质量 (QoS) 。 我 们 将 在 9. 2. 2 节 
看 到 资源 分 配 如 何 与 多 媒体 应 用 的 其 他 方面 交互 。 

除了 用 于 多 媒体 传输 和 资源 分 配 的 这 些 协 议 ， 许 多 多 媒体 应 用 还 需要 会 话 控制 (ses- 
sion control) 协议 。 例 如 ， 假设 我 们 希望 打 一 个 跨越 因特网 的 电话 (Voice over IP, 
VoIP)。 我 们 需要 某 种 机 制 去 通报 本 次 呼叫 的 预定 接收 方 ， 即 我 们 想 要 与 她 通话 ， 比 如 ， 
通过 向 某 个 多 媒体 设备 送出 一 个 消息 使 之 发 出 铃声 。 我 们 也 希望 支持 类 似 于 呼叫 转移 和 三 
方 呼 叫 等 特性 。 会 话 初 始 化 协议 (Session Initiation Protocol, SIP) 和 H. 323 就 是 解决 会 
话 控制 问题 的 协议 的 例子 ， 我 们 将 分 析 这 些 协 议 作 为 讨论 多 媒体 应 用 的 开始 。 





鸟 ” 参见 “实验 十 四 ”和 “实验 十 五 ” 
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9.2.1 会 话 控制 和 呼叫 控制 (SDP. SIP, H. 323) 


为 了 理解 会 话 控 制 的 相关 问题 ， 考 虑 以 下 问题 。 假 设 你 想 在 某 个 时 间 为 广大 参与 者 举 
办 一 次 视频 会 议 ， 也 许 你 已 决定 使 用 MPEG-2 标准 为 视频 流 编 码 ,， 使 用 多 播 IP 地 址 
224. 1. 1. 1 传输 数据 ， 并 且 在 端口 号 为 4000 的 UDP 之 上 使 用 RTP 发 送信 息 。 你 将 如 何 把 
这 些 信息 通知 所 有 预期 的 与 会 者 呢 ? 一 种 方法 是 将 所 有 信息 放 在 电子 邮件 中 送出 ， 但 理想 的 
情况 是 有 一 种 传播 这 种 信息 的 标准 格式 和 协议 。IETF 已 经 定义 了 用 于 此 目的 的 协议 ， 包 括 

。 会 话 描 述 协 议 (Session Description Protocol, SDP), 

。 会 话 发 布 协议 (Session Announcement Protocol. SAP). 

© 会 话 初始 化 协议 (Session Initiation Protocol, SIP). 

。 简单 会 议 控 制 协议 (Simple Conference Control Protocol. SCCP). 

你 可 能 认为 这 是 为 看 似 简单 的 任务 准备 的 许多 协议 ， 但 是 这 个 问题 有 多 个 方面 和 不 同 
的 情况 需要 解决 。 例 如 ，MBone 上 将 举行 的 某 次 会 议会 话 (这 可 以 用 SDP 和 SAP 来 完 
成 ) 和 试图 在 一 个 特定 的 时 间 与 某 个 用 户 发 起 因特网 电话 呼叫 (这 可 以 用 SDP 和 SIP 来 
完成 ) 之 间 存 在 差别 。 对 于 前 者 ， 一 旦 你 将 所 有 会 话 信息 以 标准 格式 送 到 一 个 众所周知 的 
多 播 地 址 ， 就 可 以 认为 你 的 工作 完成 了 。 而 对 于 后 者 ， 你 需要 定位 一 个 或 多 个 用 户 ， 给 他 
们 发 一 条 消息 来 通知 你 想 通 话 的 愿望 (类 似 于 拨 通 他 们 的 电话 )， 并 且 可 能 要 在 各 方 中 协 
商 一 个 合适 的 音频 编码 。 我 们 首先 看 SDP， 许多 应 用 都 使 用 它 ， 然 后 再 看 SIP， 它 正 渐渐 
被 很 多 交互 式 应 用 所 广泛 使 用 ， 比 如 因特网 电话 。 

会 话 描述 协议 (SDP) 

会 话 描述 协议 (SDP) 是 一 个 相当 通用 的 协议 ， 能 用 于 多 种 场景 ， 通常 与 一 个 或 多 个 
其 他 协议 (如 SIP) 联合 使 用 ， 它 传达 如 下 信息 : 

。 会 话 的 名 字 和 目的 。 

。 会 话 的 开始 和 结束 时 间 。 

。 会 话 包含 的 媒体 类 型 (如 音频 、 视 频 )。 

。 接收 会 话 所 需 的 细节 信息 (如 数据 将 被 送 到 的 多 播 地 址 、 所 用 到 的 传输 协议 、 端 

口号 、 编 码 方 案 )。 

SDP 使 用 一 系列 ASCII 格式 的 文本 行 来 提供 这 些 信息 ， 每 一 行 的 形式 为 (type) = 
ede he ee N. 

Sais 2890844526 2890842807 IN IP4 128.112.136.10 

s=Networking 101 

i=A class on computer networking 

u=http://www.cs.princeton.edu/ 

e=larry@cs.princeton.edu 

c=IN IPE 224.2.17.12/127 

t=2873397496 2873404696 

m=audio 49170 RTP/AVP 0 

m=video 51372 RTP/AVP 31 

m=application 32416 udp*wb 

TEM. SDP 像 HTML 一 样 很 容易 阅读 ， 但 其 严格 的 格式 化 规则 使 计算 机 能 清晰 地 解 
释 数据 。 例 如 ，SDP 规范 定义 所 有 人 允许 出 现 的 信息 “类 型 ”、 信 息 呈 现 次 序 以 及 每 种 被 定 
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义 的 类 型 的 格式 和 保留 字 。 

症 先 注意 到 每 种 信息 “类 型 ”由 单个 字符 标识 。 例 如 , T v= 告诉 我 们 “版 本 ” 
的 值 是 0 〈 就 是 说 ， 这 个 消息 的 格式 符合 SDP 版 本 0 规范)。 下 一 行 提供 会 话 的 “ 源 ”， 
含有 足够 多 的 信息 以 唯一 标识 该 会 话 。 其 中 ，larry 是 会 话 创建 者 的 用 户 名 ， 
128. 112. 136. 10 是 他 的 计算 机 的 IP 地 址 。 跟 随 在 larry i Res eee 符 ， 它 对 于 
那 台 机 器 来 说 是 唯一 的 。 接 下 来 是 SDP 通知 的 “版 本 ”号 ， 如 果 会 话 信息 被 后 来 的 消息 
更 新 ， 版 本 号 将 增加 。 

接 下 来 的 三 行 (s. i 和 u) 一 一 会 话 的 名 字 、 会 话 描述 和 会 话 的 统一 资源 标识 符 
(URI， 见 9.1.2 节 )， 这些 信息 有 助 于 用 户 决定 是 否 参与 本 次 会 话 。 这 样 的 信息 将 显示 在 
用 户 的 会 话 目 录 工 具 界 面 上 ， 以 表明 现在 和 即将 来 临 的 已 经 用 SDP 通知 的 事件 。 下 一 行 
(e =...) 含有 某 个 与 本 次 会 话 有 关 的 人 的 电子 邮件 地 址 。 图 9-7 显示 了 一 种 称 为 sdr 的 
会 话 目 录 工 具 的 屏幕 画面 以 及 在 截取 商 面 时 已 经 通知 的 若干 会 话 的 描述 
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图 9-7 一 个 会 话 目录 工具 显示 的 从 SDP 消息 中 摘录 的 信息 


下 面 我 们 将 进入 使 一 个 应 用 程序 能 够 参与 会 话 的 技术 细节 。 以 c =... 开始 的 行 提供 
这 个 会 话 的 数据 将 要 发 往 的 IP 多 播 地 址 ， 用 户 需要 加 入 这 个 多 播 组 才能 接收 会 话 。 接 下 
来 我 们 看 到 的 是 会 话 的 开始 和 结束 时 间 (根据 网 络 时 间 协 议 NTP 被 编码 为 整数 )。 最 后 得 
到 有 关 本 次 会 话 的 媒体 信息 。 本 次 会 话 有 三 种 可 用 的 媒体 类 型 一 一 音频 、 视 频 以 及 称 为 
“wb” 的 共享 白板 应 用 。 对 每 种 媒体 类 型 都 有 如 下 格式 的 信息 行 : 


m=<media> <port> <transport> <format> 


媒体 类 型 是 自 解 释 的 ， 而 端口 号 在 多 种 情况 下 是 指 UDP 端口 。 当 我 们 看 ， “传输 ” 字 
段 时 ， 能 看 出 wb 应 用 直接 运行 在 UDP 之 上 ， 而 音频 和 视频 使 用 “RTP/AVP” 传 输 。 这 
意味 着 它们 运行 在 RTP 上 并 且 使 用 称 为 AVP 的 应 用 轮廓 ( apylientinn profile) ( 见 5.4 节 ` 
中 的 定义 )。 这 个 轮廓 为 音频 和 视频 定义 一 些 不 同 的 编码 方案 ， 这 里 我 们 能 看 到 ， 音 频 使 
用 编码 0 (使 用 一 种 8kHz 的 采样 频率 和 每 样本 8 比特 的 编码 )， 视 频 使 用 编码 31， 代 表 
H. 261 编码 方案 。 这 些 编码 方案 的 “神奇 的 数字 ”在 定义 AVP 轮廓 的 RFC 中 定义 。 在 
SDP 中 也 有 可 能 描述 非 标准 的 编码 方案 。 

最 后 我 们 来 看 “wb” 媒 体 类 型 的 描述 。 这 种 数据 的 所 有 编码 信息 都 是 特定 于 wb 应 用 
的 ， 因 此 在 格式 字段 提供 应 用 的 名 字 就 足够 了 。 这 类 似 于 将 应 用 application/wb 放 入 一 条 
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MIME 消息 中 。 

现在 我 们 已 经 知道 了 如 何 描述 会 话 ， 可 以 继续 关注 如 何 初 始 化 会 话 。 一 种 办 法 是 使 用 
SDP 通过 向 一 个 众所周知 的 多 播 地 址 送出 SDP 消息 以 通告 多 媒体 会 议 。 显 示 在 图 9-7 中 的 
会 话 目录 工具 负责 将 其 加 入 多 播 组 、 并且 从 接收 到 的 SDP 消息 中 收集 和 显示 信息 。SDP 也 用 
于 传输 IP 娱乐 视频 〈 通 常 称 为 IPTV)， 用 于 提供 每 个 电视 频道 中 视频 内 容 的 相关 信息 。 

SDP 也 在 与 会 话 初始 化 协议 (SIP) 的 合作 中 扮演 重要 角色 . 由 于 IP 语音 ( 即 在 IP 
网 络 上 支持 类 似 电话 的 应 用 ) 和 基于 IP 的 视频 会 议 的 广泛 普及 ， 因 此 SIP 现在 已 经 成 为 
IP 互联 网 协议 族 的 重要 组 成 部 分 。 


2. SIP 

SIP 是 一 个 与 HTTP 有 点 类 似 的 应 用 层 协 议 ， 基 于 相似 的 请 求 /响应 模式 。 然 而 ， 记 
住 它 是 为 不 同 种 类 的 应 用 设计 的 ， 因 而 它 cuts HTTP 截然 不 同 的 能 力 。SIP 所 提供 的 能 
力 可 以 分 成 五 类 : 


。 用 户 定 位 : 确定 与 特定 用 户 通 信 的 恰当 设备 。 

。 用 户 可 用 性 : 确定 用 户 是 否 自 愿 或 能 够 参加 一 个 特定 的 通信 会 i 

。 用 户 能 力 : 确定 采用 哪 种 媒体 和 编码 方案 。 

。 会 话 建立 : 建立 会 话 参 数 ， 诸 如 通信 各 方 所 使 用 的 端口 号 。 

。 会 话 管理 : 包括 传递 会 话 (如 实现 “ EURE MERS > i BM ED AE 

这 些 功 能 中 的 大 部 分 都 很 容易 理解 ， 但 定位 问题 需要 进一步 讨论 。SIP 与 HTTP 之 间 
的 一 个 重要 差别 是 SIP 主要 用 于 人 与 人 的 通信 。 因 此 ， 重 要 的 是 能 定位 独立 的 用 户 Cus- 
er) 而 不 是 计算 机 。 与 电子 邮件 系统 不 同 ， 只 定位 用 户 今后 某 个 日 期 访问 并 转 储 消息 的 服 
务 器 是 不 够 的 。 如 果 想 实现 实时 通信 ， 我们 就 需要 知道 现在 用 户 在 什么 地 方 。 这 一 功能 更 
复杂 的 方面 在 于 用 户 可 以 选用 一 系列 不 同 设备 进行 通信 的 事实 ， 例如， 在 办 公 室 时 使 用 桌 
面 PC 而 旅行 时 使 用 手持 设备 。 多 种 设备 可 以 同时 参与 并 且 能 力 上 差别 巨大 (如 一 个 文字 
数字 型 的 寻呼机 和 一 个 基于 PC 的 视频 “电话 ")。 理 想 情况 是 ， 其 他 用 户 可 以 在 任何 时 间 
定位 适当 的 设备 并 与 之 通信 。 此 外 ， 用 户 必须 还 能 控制 何 时 、 何 地 和 接收 何人 的 呼叫 。 

为 了 使 用 户 对 呼叫 行使 适当 级 别 的 控制 ，SIP 引入 代理 的 概念 。SIP 代理 可 以 看 作用 
ee ee 

一 个 例子 来 看 看 代理 如 何以 最 佳 的 方式 工作 。 

gn 9-8 中 的 两 个 用 户 。 首 先 需要 注意 的 是 每 个 用 户 有 一 个 user@domain 格式 的 名 
字 ， 很 像 电子 邮件 地 址 。 当 用 户 Bruce 想 要 初始 化 与 Larry 的 会 话 时 ， 他 向 他 所 在 域 的 本 
地 代理 cisco. com 发 送 他 的 初始 化 SIP 消息 。 这 条 初始 化 消息 含有 一 个 SIP URI 一 一 格式 
如 下 的 统一 资源 标识 符 


SIP: larry@princeton.edu 


上 一 com princeton.edu 
= | chem | —__. 代理 


-机 * bsd- -pe.cisco.com Ilp-ph.cs.princeton.edu 


bruce@cisco.com larry@princeton.edu 


图 9-8 通过 SIP 代理 建立 通信 





SIP URI 提供 了 用 户 的 完整 标识 , 但 (不 像 URL) 不 提供 他 的 位 置 ， 因 为 位 置 可 能 
随时 变化 。 我 们 将 马上 看 到 如 何 确定 用 户 的 位 置 。 

在 接收 到 来 自 Bruce 的 初始 化 消息 的 基础 上 ， 代理 cisco. com 查看 SIP URI 并 且 推 断 
这 一 消息 应 该 被 送 到 代理 princeton. edu。 现 在 ， 我 们 假设 代理 princeton. edu 已 经 访问 了 
某 些 数据 库 ， 得 到 了 从 名 字 larry@ princeton. edu 到 目前 Larry 希望 用 于 接收 消息 的 一 台 
或 多 台 设 备 的 IP 地 址 的 映射 。 代 理 能 将 消息 转发 到 Larry 选择 的 设备 上 。 发 送 消息 到 多 
台 设 备 上 称 为 分 支 Corking) 并 且 可 以 并 行 或 串 行 方式 完成 〈 例 如 ， 如 果 他 的 座机 不 应 答 
就 发 送 到 他 的 手机 上 ) 。 

从 Bruce 到 Larry 的 初始 化 消息 很 可 一 条 SIP invite 消息 ， 它 看 上 去 号 下 述 术 形 式 
相似 : 

INVITE sip:larry@princeton.edu- SIP/2.0 

Via: SIP/2.0/UDP bsd-pc.cisco.com;branch=z9hG4bK433yte4 

To: Larry <sip:larry@princeton.edu> 

From: Bruce <sip:bruce@cisco.com>;tag=55123 

Call-ID: xy745jj2l0re3@bsd-pc.cisco.com 

CSeq: 271828 INVITE 

Contact: <sip:bruce@bsd-pc.cisco.com> 

Content-Type: application/sdp 

Content-Length: 142 

第 一 行 标识 的 内 容 包括 : 将 要 执行 的 功能 的 类 型 invite); 执行 功能 所 需 的 资源 ， 即 
被 调用 方 (sip: larry@princeton. edu); 以 及 协议 的 版 本 (2.0)。 其 后 的 首部 行 可 能 看 上 
去 有 眼熟， 因为 它们 与 电子 邮件 消息 中 的 首部 行 有 类 似 之 处 。SIP 定义 了 大 量 的 首部 行 字 
段 ， 这 里 只 描述 其 中 的 一 部 分 。 注 意 本 例 的 Via: 首 部 标识 了 发 送 这 一 消息 的 设备 。 首 部 
Content-Type: 和 Content-Length: 描述 首部 之 后 的 消息 内 容 ， 与 MIME 编码 的 电子 邮件 
消息 相同 。 在 本 例 中 ， 内 容 是 一 条 会 话 描述 协议 (SDP) 消息 。 这 条 消息 将 描述 诸如 
Bruce 与 Larry 想 要 交换 的 媒体 类 型 (音频 、 视 频 等 ) 及 他 所 支持 的 其 他 编 解码 类 型 等 会 
话 属性 。 注意 SIP 的 Content-Type: 字段 提供 使 用 任何 协议 来 完成 任务 的 能 力 ， 尽 管 SDP 
是 使 用 最 普遍 的 协议 。 

再 来 看 这 个 例子 ， 当 invite 消息 到 达 代 理 cisco. com 时 ， 代 理 不 仅 向 princeton. edu 转 
发 消息 ， 它 也 响应 invite 的 发 出 者 。 像 在 HTTP 中 一 样 ， 所 有 响应 都 有 一 个 响应 代码 ， 并 
且 代 码 的 组 织 也 类 似 于 HTTP， 如 表 9-2 所 示 。 在 图 9-9 中 ， 我 们 能 看 到 一 系列 SIP 消息 
和 响应 。 

在 图 9-9 中 的 第 一 个 响应 消息 是 临时 响应 100 trying， 它 表明 消息 已 经 被 呼叫 代理 无 
差错 接收 。 一 旦 invite 被 传送 给 Larry 的 电话 机 ， 它 将 提醒 Larry 并 且 用 180 ringing 消息 
进行 响应 。 这 一 消息 到 达 Bruce 的 计算 机 后 产生 一 个 “ 振 铃 音 ”"。 假 设 Larry 想 要 并 且 也 
能 与 Bruce 通信 ， 他 就 摘 下 电话 ， 这 引起 消息 200 OK 被 送出 。Bruce 的 计算 机 以 ACK 响 
应 ， 并且 这 时 媒体 (如 一 个 RTP 封装 的 音频 流 ) 开始 在 两 个 参与 者 之 间 流 动 。 注 意 这 时 
参与 者 知道 彼此 的 地 址 ， 所 以 ACK 能 绕 过 代理 而 直接 被 发 送 。 此 时 在 呼叫 中 将 不 再 涉及 
代理 。 注 意 ， 媒 体 一 般 将 采取 gga pe 此 外 ， 即 使 一 两 个 代 
理 在 此 时 瘫痪 ,呼叫 仍 能 正常 维持 。 当 一 个 参与 者 希望 终止 会 话 时 ， 它 送出 BYE 
消息 ， 在 正常 情况 下 引发 200 OK a ; 
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图 9-9 一 个 基本 SIP 会 话 的 消息 流 


这 里 我 们 掩盖 了 一 些 细节 。 一 个 是 会 话 特性 的 协商 。 也 许 Bruce 本 来 想 用 音频 和 视频 
通信 ， 但 Larry 的 电话 机 仅 支 持 音 频 。 因 而 Larry 的 电话 机 在 考虑 了 Bruce 的 invite 中 建 
议 的 选项 后 在 200 OK 中 送出 一 个 描述 Larry 和 他 的 设备 能 接受 的 会 话 属性 。 通过 这 种 方 
法 ， 在 媒体 流 开 始 前 ， 对 彼此 可 接受 的 会 话 参数 达成 一 致 。 

我 们 掩盖 的 另 一 个 大 问题 是 定位 Larry 现在 的 设备 。 首 先 ，Bruce 的 计算 机 必须 把 它 
的 invite 送 到 代理 cisco. com。 这 可 能 是 计算 机 内 已 配置 的 信息 . 或 从 DHCP 得 知 。 然 后 
代理 cisco. com 必须 找到 代理 princeton. edu。 这 可 以 用 某 种 特殊 类 型 的 DNS 查询 并 返回 
princeton. edu 域 的 SIP 代理 的 IP 地 址 。( 我 们 在 9.3.1 节 讨 论 了 DNS 如 何 实现 这 一 点 。) 
最 后 代理 princeton. edu 必须 找到 联系 Larry 所 使 用 的 设备 。 典 型 的 做 法 是 ,代理 服务 器 
访问 用 一 些 方法 建立 的 位 置 数 据 库 。 手 工 配置 是 一 种 选择 ， 但 更 灵活 的 选择 是 使 用 SIP 的 
注册 (registration) 功能 。 

用 户 可 通过 发 送 一 条 SIP register 消息 到 他 域 中 的 “注册 处 ”注册 一 个 位 置 服务 。 这 
条 消息 产生 一 个 记录 地 址 (address of record) 与 联系 地 址 (contact address) 之 间 的 绑 
定 。 记 录 地 址 看 上 去 是 像 SIP URI 这 样 的 知名 地 址 (如 sip: larry@ princeton. edu), ， 而 联 
系 地 址 是 当前 能 够 找到 用 户 的 地 址 (如 sip: larry@llpph. cs. princeton. edu) 。 在 我 们 的 例 
子 中 ， 这 种 绑 定 正 是 代理 princeton. edu 所 需要 的 。 

注意 一 个 用 户 可 以 在 多 个 位 置 注册 并 且 多 个 用 户 可 以 注册 在 同一 台 设 备 上 。 例 如 ， 你 
能 想象 一 组 人 步 人 装备 一 部 IP 电话 的 会 议 室 ,并且 所 有 人 都 注册 到 这 部 电话 上 ， 以 使 他 
们 能 在 电话 上 接收 呼叫 。 

SIP 是 一 个 非常 丰富 和 灵活 的 协议 ， 它 能 支持 大 量 不 同 的 复杂 呼叫 情况 ， 也 能 支持 那 
些 与 电话 几乎 无 关 的 应 用 程序 。 例 如 ，SIP 支持 将 呼叫 转移 到 “音乐 保持 ”或 语音 邮件 服 
务 器 的 操作 。 如 何 将 其 用 于 像 即 时 通信 那样 的 应 用 也 是 显而易见 的 。 在 写本 书 时 ， 针 对 这 
些 应 用 的 STP 扩展 的 标准 化 工作 正在 进行 。 

3. H. 323 

国际 电信 联盟 ATU) 在 呼叫 控制 领域 也 非常 活跃 ， 因 为 它 和 电话 业 相 关 ， 因 此 这 并 








不 令 人 奇怪 ， 因 为 ITU 的 传统 领域 就 是 电话 业 。 幸 运 的 是 ,在 这 方面 IETF # ITU 之 间 
已 经 进行 了 大 力 协作 ， 所 以 各 种 协议 在 某 种 程度 上 能 互 操作 。ITU 对 分 组 网 络 上 的 多 媒体 
通信 的 主要 建议 称 为 H. 323， 它 捆绑 了 许多 其 他 建议 ， laa iggi a H. 323 


OL & AY eB EWA TA MPLS BU. 而且 这 个 协议 以 其 复杂 性 而 著称 ， 所 以 这 里 只 可 能 给 出 简 
短 的 概述 。 


H. 323 作为 因特网 电话 的 一 个 协议 而 流行 ， 这 里 我 们 考虑 它 的 应 用 。 一 个 发 起 或 终止 
呼叫 的 设备 称 为 H. 323 终端 ， 它 可 以 是 运行 因特网 电话 应 用 程序 的 工作 站 ， 也 可 能 是 特 
别 设计 的 设备 一 一 例如 一 种 具有 网 络 软 件 和 以 太 网 端口 的 类 似 电话 的 设备 。H. 323 终端 能 
直接 相互 对 话 ， 但 呼叫 通常 由 一 种 叫 作 网 阅 〈gatekeeper) 的 设备 来 协调 。 网 闸 完成 一 系 
列 功能 ， 比 如 在 电话 呼叫 使 用 的 各 种 地 址 格式 之 间 转 换 以 及 控制 在 给 定 的 时 间 内 所 发 生 的 
呼叫 次 数 ， 从 而 限制 H. 323 应 用 程序 所 用 的 带宽 。H. 323 也 包括 网 关 (gateway) 的 概 

， 它 将 H. 323 网 络 连 接 到 其 他 类 型 的 网 络 。 网 关 最 常见 的 用 法 是 将 H. 323 网 络 连 接 到 
公共 交换 电话 网 (PSTN), 如 图 9-10 所 示 。 这 使 得 在 一 个 计算 机 上 运行 H. 323 应 用 程序 
的 用 户 能 与 在 公共 电话 网 上 使 用 传统 电话 的 人 通话 。 由 网 疗 完成 的 一 个 有 用 功能 是 帮助 终 
端 找 出 网 关 ， 可 能 要 在 一 系列 候选 设备 中 找 出 与 呼叫 最 终 目 的 地 最 接近 的 网 关 。 这 对 于 传 
统 电话 数目 远大 于 基于 PC 机 的 电话 数目 的 世界 ， 好 处 是 显而易见 的 。 当 一 个 H. 323 终端 
呼叫 一 个 传统 电话 的 端点 时 ， 网 关 变 成 H. 323 呼叫 的 有 效 端点 ， 并 且 负 责 对 需要 在 电话 
网 上 传输 的 信 令 信息 和 媒体 流 进 行 适当 的 转换 。 





传统 的 电话 
网 络 


| H.323 | 
| 出 | 


H323 TT H323 
终端 终端 
图 9-10 H. 323 网 络 中 的 设备 








H. 323 的 一 个 重要 部 分 是 H. 245 协议 。H. 245 用 来 协商 呼叫 的 特性 ， 有 点 类 似 于 上 
面 描述 的 SDP AYA. H. 245 消息 可 以 列 出 许多 它 所 支持 的 不 同音 频 编码 标准 ， 并 且 呼 
叫 的 远 端 终点 将 答复 一 个 它 所 支持 的 编 公 列表 。 然 后 两 端 选取 一 个 双方 都 认可 的 编码 标 
WE. H. 245 还 能 发 信 令 通知 本 次 呼叫 中 将 由 RTP 和 实时 控制 协议 (Real Time Control 
Protocol, RTCP) 使 用 的 用 于 媒体 流 (或 多 个 流 ， 例 如 一 次 呼叫 可 以 包含 音频 和 视频 ) 
的 UDP 端口 号 。 一 且 完 成 这 些 操作 ， 呼 叫 就 能 继续 ， 用 RTP 传送 媒体 流 并 用 RTCP 承载 
相应 的 控制 信息 。 


9.2.2 多 媒体 应 用 的 资源 分 配 


正如 我 们 已 经 看 到 的 ， 像 SIP FH. 323 这 样 的 会 话 控制 协议 能 够 用 于 在 多 媒体 应 用 
中 初始 化 和 控制 通信 ， 而 RTP 为 应 用 的 数据 流 提供 了 传输 层 功能 。 使 多 媒体 应 用 正常 1 





作 的 最 后 一 步 是 确保 在 网 络 内 分 配 了 合适 的 资源 ， 以 便 满足 应 用 的 服务 质量 要 求 。 我 们 在 
第 6 章 展示 了 多 种 资源 分 配方 法 。 开 发 这 些 技 术 的 推动 力主 要 是 对 多 媒体 应 用 的 支持 。 因 
此 ， 应 用 如 何 利用 底层 网 络 的 资源 分 配 能 力 呢 ? 

值得 注意 的 是 ， 很 多 多 媒体 应 用 在 诸如 公共 因特网 的 “尽力 而 为 ” 网 络 上 成 功 地 运 
行 。 大 量 商业 IP 语音 服务 (如 Skype) 证 明了 这 样 一 个 事实 ， 当 资源 不 充足 时 ， 你 只 需要 
关心 资源 分 配 一 一 在 当今 的 因特网 上 ， 资 源 匮乏 是 很 常见 的 。 

像 RTCP ( 见 5.4 节 ) 这 样 的 协议 能 够 通过 为 应 用 提供 有 关 网 络 中 所 提供 服务 的 质量 
信息 来 帮助 尽力 而 为 网 络 中 的 应 用 。 回 忆 一 下 ，RTCP 在 多 媒体 应 用 的 两 个 参与 者 之 间 传 
送 关于 分 组 丢失 率 和 延迟 特性 的 信息 。 应 用 能 够 使 用 这 些 信息 来 改变 其 编码 方案 一 一 例 
如 ， 当 带宽 较 小 时 改 用 低位 率 的 编码 。 注 意 ， 虽 然 在 分 组 丢失 率 高 时 ， 改 变 成 发 送 附 加 的 
元 余 信息 的 编码 方式 很 诱 人 ,但 这 并 不 能 满足 要 求 ， 它 类 似 于 在 出 现 丢 失 分 组 时 增加 TCP 
的 窗口 大 小 ， 这 与 所 期 望 的 避免 拥塞 崩溃 完全 相反 。 

正如 在 6.5.3 节 讨 论 的 那样 ， 区 分 服务 (DiffServ) 可 用 于 为 应 用 提供 非常 基础 和 可 
扩展 的 资源 分 配 。 多 媒体 应 用 可 以 在 它 产 生 的 分 组 的 IP 首部 设置 区 分 服务 码 点 (DSCP). 
以 努力 确保 媒体 分 组 和 控制 分 组 都 能 得 到 适当 的 服务 质量 。 例 如 ， 将 声音 媒体 分 组 标记 为 
“快速 转发 ”( EF)， 将 使 得 它们 被 路 径 上 的 路 由 器 放置 在 一 个 低 延 迟 或 高 优先 级 的 队列 
中 ， 而 呼叫 信 令 (如 SIP) 分 组 则 通常 标记 为 某 种 “确保 转发 ”( AF) 以 便 能 够 使 得 它们 
与 尽力 而 为 流量 分 别 排队 ， 从 而 减 小 丢失 的 风险 。 

当然 ， 如 果 网 络 设备 〈 如 路 由 器 ) 关心 DSCP,， 那么 标记 发 送 主机 或 设备 中 的 分 组 才 
有 意义 。 一 般 来 讲 ， 公 共 因 特 网 上 的 路 由 器 忽略 DSCP， 而 为 所 有 分 组 提供 尽力 而 为 的 服 
务 。 然 而 ， 企 业 或 公司 网 络 有 能 力 为 它们 内 部 的 多 媒体 流量 使 用 区 分 服务 ， 而 旦 经 常 这 样 
做 。 另 外 ， 甚 至 是 因特网 的 住宅 用 户 也 可 以 通过 在 他 们 因特网 连接 的 出 网 方向 上 使 用 区 分 
服务 来 提高 VoIP 或 其 他 多 媒体 应 用 的 质量 ， 如 图 9-11 所 示 。 这 种 方法 是 有 效 的 ， 央 为 很 
多 宽带 因特网 连接 都 是 不 对 称 的 : 如 果 出 链 路 的 速度 比 人 链 路 低 很 多 〈 即 更 多 的 资源 限 
制 )， 那 么 在 那 条 链 路 上 使 用 区 分 服务 的 资源 分 配 能 够 为 延迟 和 丢失 敏感 的 应 用 弥补 质量 
上 的 差异 。 
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图 9-11 用 于 VoIP 应 用 的 区 分 服务 。 区 分 服务 排队 
仅 用 于 从 客户 路 由 器 到 ISP 的 上 行 链 路 


虽然 区 分 服务 在 简单 性 方面 很 有 吸引 力 ， 但 显然 它 不 能 满足 应 用 在 所 有 条 件 下 的 需 





要 。 例如， 假设 图 9-11 中 的 上 行 带宽 只 有 100kbps， 客 户 试图 部 署 两 个 VoIP 呼叫 ， 每 一 
个 都 使 用 64kbps 的 编码 。 显 然 ， 上 行 链 路 现在 超过 了 100% 负 载 ， 这 会 引起 很 大 的 排队 延 
迟 和 分 组 丢失 。 窗 户 路 由 器 有 再 多 聪明 的 排队 方法 也 不 能 解决 这 个 问题 。 

很 多 多 媒体 应 用 的 特性 不 是 试图 将 很 多 呼叫 塞 人 一 个 过 罕 的 管道 ， 而 是 阻塞 一 个 呼叫 
而 让 另 一 个 呼叫 继续 。 也 就 是 ， 最 好 让 一 个 人 成 功 完成 一 次 会 话 ， 而 让 另外 一 个 人 听 到 忙 
信号 ， 而 不 是 让 两 个 呼叫 者 都 同时 经 历 不 可 接受 的 音质 。 我 们 有 时 把 这 种 应 用 称 为 具有 陡 
峭 的 效能 曲线 (steep utility curve)， 意 思 是 当 网 络 提 供 的 服务 质量 降低 时 ， 应 用 的 效能 
(作用 ) 会 迅速 下 降 。 多 媒体 应 用 通常 有 这 个 特性 ， 而 很 多 传统 应 用 则 没有 。 人 例如， 如果 
延迟 达到 数 小 时 ， 电 子 邮件 依然 能 工作 得 很 好 。 

具有 陡峭 效能 有 曲线 的 应 用 通常 能 很 好 地 适应 一 些 准 入 控制 。 如 果 你 不 能 确定 总 是 有 充 
足 的 资源 可 用 于 支持 应 用 需要 的 负载 ,那么 准 入 控制 提供 了 一 种 对 一 些 应 用 说 “不 ”而 人 允 
许 其 他 应 用 得 到 所 需 资源 的 方法 。 

我 们 在 6. 5. 2 节 看 到 一 种 用 RSVP 实行 准 入 控制 的 方法 ， 在 此 简短 地 回顾 一 下 ， 但 使 
用 会 话 控制 协议 的 应 用 提供 了 一 些 其 他 的 准 入 控制 选项 。 这 里 需要 注意 的 一 个 关键 点 是 像 
SIP 或 H. 323 这 样 的 会 话 控制 协议 经 常 在 呼叫 或 会 话 的 开始 包括 在 一 个 端点 和 另 一 个 实体 
(SIP 代理 或 H. 323 网 关 ) 之 间 的 某 种 消息 交换 。 这 提供 了 一 种 很 方便 的 方式 来 对 不 能 得 
到 是 够 资源 的 新 呼叫 说 “不 ”。 

作为 一 个 例子 ， 考虑 图 9-12 中 的 网 络 。 假 设 从 分 公司 到 总 公司 的 广域网 链 路 具有 足 
以 满足 三 个 并 发 的 使 用 64kbps 编码 的 VoIP 呼叫 的 带宽 。 每 一 部 电话 在 发 出 一 个 呼叫 时 都 
需要 已 经 与 本 地 SIP 代理 或 H. 323 网 关 进 行 了 通信 ， 因 此 对 于 代理 /网 关 来 说 在 链 路 满 负 
载 时 回 送 一 条 消息 告诉 IP 电话 播放 忙 信 号 是 很 容易 的 。 代 理 或 网 关 甚 至 能 够 处 理 一 个 特 
we AY IP 电 话 可 能 同时 发 出 多 个 呼叫 的 情况 ， 并 且 可 能 使 用 不 同 的 编码 速度 。 然 而 ， 这 种 
方案 仅 在 没有 其 他 设备 能 够 在 与 网 关 或 代理 通话 以 前 就 使 链 路 超载 的 情况 下 才能 工作 。 区 
分 服务 排队 可 以 确保 用 于 文件 传输 的 PC 不 会 干扰 VoIP 呼叫 。 但 是 假设 在 远程 办 公 室 里 
有 一 些 不 需要 先 与 网 关 或 代理 通话 的 VoIP 应 用 ， 这 样 的 应 用 如 果 能 够 对 其 分 组 设置 适当 
标志 并 放 入 与 现 有 VoIP 流量 相同 的 队列 中 ,那么 很 显然 ， 由 于 没有 来 自 代 理 或 网 关 的 反 
饶 ， 会 导致 链 路 达到 超载 点 。 
代理 /网 关 
ye 







总 公司 


分 公司 的 
JP 电话 


图 9-12 使 用 会 话 控制 协议 的 准 和 控制 
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在 图 9-12 所 示 的 简单 拓扑 中 ， 这 不 是 一 个 大 问题 ， 但 是 在 更 加 复杂 的 网 络 中 ， 这 将 很 快 
变 得 不 可 管理 。 我 们 只 需要 想象 这 样 一 种 情况 : 远程 办 公 室 有 两 个 到 外 部 所 界 的 不 同 连 
接 ， a omy SIP 或 H. 323, 还 要 理解 路 由 、 链 路 失败 和 当前 网 
络 状况 。 这 将 很 快 变 得 管理 。 

es ee a ees 
WEA TE is 22) BE BORA AIL ERE EY raat aa 准 人 控制 ， 
在 IP 网 络 中 提供 路 径 上 的 准 入 控制 的 协议 的 标准 示例 是 RSVP。 我 们 在 6. 5.2 节 看 到 了 
RSVP 如 何 用 于 确保 沿 着 一 条 路 径 分 配 足够 的 资源 ， ee ohana ee. 
VP 也 是 顺理成章 的 。 还 有 一 个 需要 加 入 的 细节 是 准 入 控制 协议 如 何 与 会 话 控制 协议 交互 ， 

协调 准 入 控制 〈 或 资源 预 留 ) 协议 与 会 话 控制 协议 的 行为 不 是 火箭 科学 〈 很 困难 的 事 ). 
但 仍然 需要 注意 一 些 细节 。 作 为 一 个 例子 ， 考 虑 两 个 实体 之 间 的 简单 电话 呼叫 。 在 进行 预 留 
前 ， 你 需要 知道 该 呼叫 将 使 用 多 少 带宽 ， 意 思 是 你 需要 知道 将 使 用 什么 编码 。 这 也 意味 着 你 
需要 先 做 一 些 会 话 控制 以 便 交 换 关 于 两 个 电话 所 支持 的 编码 的 信息 。 然 而 ， 你 不 能 先 完成 所 
有 会 话 控制 ， 因 为 你 不 想 让 电话 在 准 入 控制 决策 前 就 响 铃 ， 以 防 准 入 控制 失败 .图 9-13 说 明 
了 这 种 情况 ， 其 中 SIP 用 于 会 话 控制 ，RSVP 用 于 准 入 控制 决策 〈 在 此 例 中 成 功 执行 )。 
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图 9-13 SIP 信 令 和 资源 预 留 的 协作 


这 里 需要 注意 的 主要 问题 是 会 话 控制 与 资源 分 配 任务 的 交叉 。 实 线 代表 SIP 消息 ， 虚 线 
代表 RSVP 消息 。 注 意 ， 在 该 例 中 ，SIP 消息 直接 在 电话 和 电话 之 间 传 送 〈 即 我 们 没有 显示 任 
何 SIP 代理 )， 而 RSVP 消息 也 被 中 间 的 路 由 器 处 理 以 检查 是 否 有 足够 的 资源 来 允许 该 呼叫 。 

我 们 先 看 一 下 前 两 条 SIP 消息 中 交换 的 编码 信息 (回忆 一 下 ，SDP 用 于 列举 所 有 可 用 
编码 )。 PRACK 是 一 个 “ 阮 确 认 ”。 一 旦 交换 了 这 些 消息 ， 包 含 对 所 需要 资源 总 量 的 描述 
的 RSVP PATH 消息 就 可 以 作为 在 呼叫 的 两 个 方向 上 进行 资源 预 留 的 第 一 步 而 被 发 送 
接 下 来 ， 可 以 返回 RESV 消息 来 实际 预 留 资源 。 一 旦 主 叫 电话 接收 到 RESV 消息 ， 它 可 





以 发 送 一 条 更 新 的 SDP 消息 来 报告 已 经 在 一 个 方向 上 预 留 了 资源 这 样 一 个 事实 。 当 被 叫 
电话 收 到 这 两 条 消息 以 a RESV 时 ， 它 就 可 以 振 铃 了 ， 并 告诉 另外 一 
个 电话 现在 两 个 方向 上 都 已 经 预 留 了 资源 〈 用 SDP hacen 还 要 通知 主 叫 电话 它 正 在 振 
铃 。 从 现在 起 ， 正 常 的 SIP li 2 ean 下 去 ， 如 图 9-9 Bias. 

我 们 又 一 次 看 到 构建 应 用 要 求 我 们 理解 不 同 向 建 模块 (在 本 例 中 是 SIP 和 RSVP) 之 
间 的 交互 。SIP 的 设计 者 实际 上 对 协议 做 了 一 些 修改 ， 使 得 完成 不 同 工 作 的 协议 之 间 能 够 
实现 功能 交叉 。 因 此 ， 我 们 再 次 强调 本 书 关注 整个 系统 ， 而 不 是 孤立 于 系统 的 其 他 部 分 来 
看 一 层 或 一 个 组 件 。 


9.3 基础 设施 服务 

pa 但 并 不 完全 符合 严格 的 分 层 模型 。 
其 中 一 个 是 域名 系统 (DNS) \ 是 一 个 用 户 通常 显 式 调用 的 应 用 ， 而 是 几乎 所 有 其 他 
go E 这 种 应 用 的 存 
在 使 得 其 他 应 用 的 用 户 可 以 通过 名 字 而 不 是 地 址 来 访问 远程 主机 。 换 句 话 说， 名字 服 务 一 
般 被 其 他 应 用 使 用 ， 而 不 是 人 类 使 用 。 


男 一 个 关键 功能 是 网 络 管理 ,虽然 普通 用 户 对 它 不 熟悉 ， 但 它 却 是 系统 管理 员 经 常 进 
行 的 操作 。 网 络 管理 普 这 被 认为 是 联网 的 难题 之 一 ， 并 继续 成 为 大 量 研究 的 重点 。 下 面 看 


一 下 相关 问题 和 解决 方法 。 


9.3.1 名 字 服 务 (DNS) 


到 目前 为 止 ， 我 们 在 本 书 中 一 直 使 用 地 址 来 标识 主机 。 地 址 虽然 非常 适合 路 由 器 的 处 
H. 但 对 用 户 并 不 十 分 友好 。 因 此 ,通常 也 为 网 络 中 的 每 台 主 机 分 配 一 个 唯一 的 名 
F (name)。 在 本 节 中 ， 我们 已 经 看 到 HTTP 的 应 用 层 协议 使 用 诸如 www. princeton. edu 
的 名 字 。 本 节 描 述 如 何 开 发 一 个 命名 服务 系统 以 便 把 对 用 户 友好 的 名 字 映 射 成 对 路 由 器 友 
好 的 地 址 。 由 于 这 种 服务 可 使 其 他 应 用 自由 地 通过 名 字 而 不 是 地 址 来 识别 主机 ， 所 以 它 往 
往 是 在 网 络 上 实现 的 第 一 个 应 用 程序 。 名 字 服 务 有 时 也 称 为 中 间 件 (middleware)， 因 为 
它 填补 了 应 用 程序 与 底层 网 络 之 间 的 间 院 。 

主机 名 在 两 个 重要 的 方面 不 同 于 主机 地 址 。 第 一 ， 它 们 通常 是 可 变 长 且 容 易 记 忆 的 ， 
因此 很 容易 被 人 们 记 住 。 (与 之 对 照 的 固定 长 度 的 数字 地 址 则 更 易于 路 由 器 的 处 理 .) 第 
二 ， 主 机 名 通常 不 包含 能 够 帮助 网 络 定位 主机 的 信息 〈 即 分 组 的 路 由 走向 );， 与 之 相 比 ， 
地 址 有 时 则 有 内 符 的 路 由 选择 信息 ， 扁 平 (flat) 地 址 〈 没 有 将 地 址 划分 成 各 个 组 成 部 分 ) 
属于 例外 。 

在 详细 介绍 在 网 络 中 如 何 命名 主机 之 前 ,我 们 首先 介绍 一 些 基 本 术语 。 首 先 ， 命 名 空 
间 (name space) 定义 所 有 可 能 的 名 字 的 集合 。 命 名 空间 可 以 是 扁平 的 〈flat) (名 字 中 不 
WARE Te Kap), ， 也 可 以 是 分 层 的 (hierarchical) (UNIX 文件 名 是 一 个 明显 的 例子 ) 。 第 
aer N 系统 维护 一 组 名 字 到 值 的 绑 定 (binding)。 当 我 们 提供 一 个 名 字 后 ， 命 名 系统 可 
以 返回 一 个 我 们 希望 的 值 ， on 况 下 是 一 个 地 址 。 最 后 ， 解 析 机 制 (resolution mech- 
anism) oe 个 过 程 : 当 以 一 个 名 字 调 用 它 时 ， 返 回 相 应 的 值 。 名 字 服 务 器 (name 
server) 是 网 络 中 可 用 的 解析 机 制 的 一 个 特定 的 实现 ， 并 能 用 发 送 消息 的 方式 来 查询 它 。 

因为 因特网 很 大 ， 所 以 它 有 一 个 开发 得 非常 好 的 命名 系统 域名 系统 (Domain 
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Name System，DNS) 。 因 此 ， 我 们 用 DNS 作为 讨论 命名 主机 问题 的 框架 。 注 意 因 特 网 并 
不 是 一 直 使 用 DNS。 早期， 因特网 仅仅 有 几 百 台 主 机 ， 那 时 有 一 个 称 为 网 络 信息 中 心 
(Network Information Center, NIC) 的 中 央 权 威 机 构 维 护 着 一 个 名 字 到 地 址 绑 定 的 扁平 
表 ， 此 表 称 为 hosts. txt。 无 论 何 时 任何 站 点 想 要 加 一 个 新 主机 到 因特网 上 ， 站 点 管理 者 都 
会 将 新 主机 的 名 字 / 地 址 对 用 电子 邮件 发 给 NIC。 这 个 信息 被 人 工 加 到 表 (hosts. txt) 中 . 
每 隔 几 天 后 就 把 修改 过 的 表 发 给 各 个 站 点 一 次 ， 然 后 每 个 站 点 的 系统 管理 员 将 表 安 装 到 站 
点 的 每 台 主 机 上 。 名 字 解 析 简 单 地 用 一 个 过 程 来 实现 ， 即 在 表 的 本 地 备份 中 找到 主机 名 ， 
然后 返回 相应 的 地 址 。 

毫 无 疑问 ， 随 着 因特网 主机 数目 的 增长 ， 使 用 hosts. txt 方法 的 名 字 服 务 不 再 有 效 
因此 在 20 世纪 80 年 代 中 期 ， 域 名 系统 开始 投入 使 用 。DNS 采用 分 层 的 命名 空间 而 不 是 遍 
平 的 命名 空间 ， 并 且 实 现 此 命名 空间 的 绑 定 表 被 划分 为 不 相交 的 分 布 在 因特网 中 的 子 表 . 
可 通过 网 络 查询 名 字 服 务 器 上 的 可 用 子 表 。 

因特网 中 发 生 的 事情 是 ， 用 户 提供 一 ‘ei | 
主机 名 给 应 用 程序 (可 能 嵌入 在 一 个 复合 名 hi | ser@es.princeton edu 
字 中 ， 如 电子 邮件 地 址 或 URL)， 这 个 应 用 = 
程序 启用 命名 系统 将 名 字 翻 译 成 一 台 主 机 地 | 服务 器 ri 
址 。 然 后 应 用 程序 通过 某 个 传输 协议 (如 192.12.69.5 | 19212.69.5 4 
TCP) 根据 主机 的 IP 地 址 打开 一 个 到 这 人 台 主 ca 
机 的 连接 。 这 种 情况 如 图 9-14 所 示 (发 送 电 
子 邮 件 的 情况 )。 虽 然 该 图 中 的 名 字 解 析 看 上 [192129.5 à 
去 很 简单 ， 但 我 们 将 看 到 它 还 包括 更 多 内 容 。 

1. 域名 的 分 层 结构 

DNS 为 因特网 对 象 实现 了 一 个 分 层 的 命 图 9-14 名 字 翻 译 成 地 址 ， 其 中 数字 
名 空间 。 与 UNIX 文件 名 不 同 的 是 (UNIX 人 
文件 名 是 将 名 字 的 组 成 部 分 从 左 到 右 用 斜 线 分 隔 ) DNS 名 字 从 右 向 左 进行 处 理 ， 并 用 圆 
点 分 隔 。( 尽 管 域名 是 从 右 向 左 处 理 ， 但 人 们 “ 读 ” 域 名 时 仍然 是 从 堪 向 右 .) 例如 ， 一 个 
主机 域名 的 例子 是 cicada. cs. princeton. edu。 注 意 ， 我 们 说 过 域名 用 于 命名 因特网 对 象 ， 
意思 是 DNS 并 不 严格 地 用 来 将 主机 名 映射 到 主机 地 址 ， 更 精确 地 说 ，DNS 将 域名 映射 为 
值 。 目 前 ,我 们 假设 这 些 值 是 IP 地 址 ， 本 节 的 稍 后 部 分 将 重新 讨论 这 个 问题 。 

和 UNIX 的 文件 分 层 结构 一 样 ，DNS 的 分 层 结构 也 可 看 作 一 棵 树 ， 树 中 的 每 个 节点 
对 应 一 个 域 ， 树 的 叶子 对 应 被 命名 的 主机 。 图 9-15 给 出 域名 分 层 结构 的 一 个 例子 。 注 意 ， 
我 们 并 不 指定 术语 域 (domain) 的 任何 语义 ， 只 是 简单 地 认为 它 是 定义 其 他 名 字 的 一 个 上 
下 文 .9 

事实 上 ， 当 域名 分 层 结构 刚 发 展 到 采用 什么 惯例 来 支配 从 分 层 结构 的 顶部 分 发 名 字 
时 ， 曾 引发 了 大 量 的 讨论 。 不 必 详 细 讨 论 ， 我 们 就 可 以 注意 到 层次 结构 的 第 一 层 的 范围 并 
不 大 。 有 每 个 国家 的 域 ， 再 加 上 “6 个 大 域 ": .edu、 .com、 .gov、. mil、. org 和 .net 
这 6 个 域 都 以 美国 为 基础 (因特网 和 DNS 是 在 美国 发 明 的 )。 例 如 ， 只 有 美国 的 教育 机 构 











© 令 人 困惑 的 是 词语 域 (domain) 也 用 在 因特网 路 由 中 ， 但 其 含义 与 在 DNS 中 的 含义 不 同 ， 大 体 上 与 术语 自治 
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图 9-15 域名 层次 结构 示例 


可 以 注册 一 个 .edu 域名。 最 近 ， 顶 级 域 已 经 被 扩展 了 ， 部 分 原因 是 为 了 满足 . com 域名 的 
大 量 需 求 。 新 的 顶级 域 包括 . biz, . coop 和 . info。 男 一 个 近期 发 展 是 支持 用 非 拉 丁字 符 集 
表示 的 域名 ， 如 阿拉 伯 文 和 中 文 。 

2. REIRI ah 

完全 的 域名 分 层 结构 只 是 一 种 抽象 。 我 们 现 将 注意 力 转 向 分 层 结构 在 实际 中 如 何 实现 
这 个 问题 。 第 一 步 将 分 层 结构 分 为 子 树 ， 叫 作 区 域 (zone). Al 9-16 显示 了 如 何 将 图 9-15 
中 的 分 层 结构 划分 为 区 域 。 每 个 区 域 可 看 作对 应 于 负责 分 层 结构 中 一 部 分 的 某 个 管理 权 
威 。 例如， 分 层 结构 的 顶层 可 以 形成 一 个 区 域 ， 由 因特网 名 字 与 编号 分 配 机 构 (Internet 
Corporation for Assigned Name and Numbers, ICANN) 来 管理 。 在 它 下 面 是 一 个 对 应 于 
普林斯顿 大 学 的 区 域 。 在 这 个 区 域内 ， 有 些 系 不 想 承 担 管 理 分 层 结构 的 责任 (因此 它们 留 
在 大 学 级 区 域 中 ) ， 而 另 一 些 系 ， 如 计算 机 科学 系 ， 管 理 它们 自己 的 系 级 区 域 。 


| 
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Iux01.…ux04 
图 9-16 划分 为 区 域 的 域名 分 层 结 构 


区 域 的 相关 性 是 它 对 应 于 DNS 实现 的 
基本 单元 一 一 名 字 服 务 器 。 特 别 是 ， 每 个 
区 域 中 包含 的 信息 被 实现 在 两 个 或 多 个 名 
字 服 务 器 上 。 而 每 个 名 字 服务 器 是 通过 因 
特 网 可 访问 的 一 个 程序 。 客 户 向 名 字 服 务 
器 发 出 请 求 ， 名 字 服 务 器 响应 所 请 求 的 信 
息 。 有 时 ， 响 应 信息 包含 用 户 想 要 得 到 的 
最 终 回答 ， 而 有 时 响应 信息 包含 指向 另 一 
个 服务 器 的 指针 ， 客 户 端 由 此 继续 向 下 一 
个 服务 名 提出 请 如 。 这 样 ， 从 实现 的 角度 [En] | <。 
来 看 ， 更 确切 地 说 ，DNS 可 看 作 一 个 名 字 一 oe eee 
服务 器 的 分 层 结构 ， 而 不 是 域 的 分 层 结构 ， 图 9-17 名 字 服 务 器 的 分 层 结构 










400 h IF 








图 9-17 给 出 了 解释 。 

注意 ， 为 了 实现 备份 ， 每 个 区 域 在 两 个 或 多 个 名 字 服 务 器 上 实现 ， 这 样 ， 即 使 一 个 名 
字 服 务 器 出 了 故障 ， 仍 然 可 以 获得 信息 。 另 一 方面 ， 一 个 给 定 的 名 字 服 务 器 可 以 实现 多 个 
区 域 。 

每 个 名 字 服 务 器 以 资源 记录 (resource record) 集合 的 形式 来 实现 区 域 信息 。 本 质 上 
一 个 资源 记录 是 一 个 名 字 到 值 的 绑 定 ,或 者 更 确切 地 说 ， 是 一 个 包括 以 下 字段 的 了 元 组 ， 

(Name, Value. Type.Class, TTL) 
Name 和 Value 字段 的 内 容 顾 名 思 义 ， 而 Type 字段 说 明 值 应 如 何 解 释 。 例如，Type 王 从 
表明 Value 是 一 个 IP 地址。 所 以 ，A 类 型 记录 实现 了 我 们 所 设想 的 名 字 到 地 址 的 映射 。 


其 他 记录 类 型 包括 : 
。 NS: Value 字段 给 出 运行 名 字 服 务 器 的 一 台 主 机 的 域名 ， 该 主机 知道 如 何 解析 指 
定 域 中 的 域名 。 
。 CNAME; Value 字段 给 出 一 个 特定 主机 的 规范 名 ， 用 于 定义 别名 。 
。 MX: Value 字段 给 出 运行 邮件 服务 器 的 主机 的 域名 ， 该 服务 器 接收 来 自 指定 域 的 
消息 。 


Class 字段 允许 除 NIC 以 外 的 其 他 实体 定义 有 用 的 记录 类 型 。 至今 ， 唯 一 广泛 使 用 的 
Class 是 由 因特网 使 用 的 Class, iQ WIN, Bela, TTL 字段 指出 这 个 资源 记录 的 有 效 时 间 。 
它 被 服务 器 用 来 缓存 来 自 其 他 服务 器 的 资源 记录 ， 当 了 ITL FW. IRS ROAM EW 
存 中 清除 这 个 记录 。 

为 了 更 好 地 理解 资源 记录 如 何 表 示 域 层次 中 的 信息 ， 考 虑 下 列 从 图 9-5 的 分 层 结构 中 
抽取 的 一 些 例 子 。 为 了 简化 这 个 例子 ,我 们 忽略 TTL 字段 并 且 只 给 出 实现 这 个 区 域 的 名 
字 服 务 器 中 的 相关 信息 。 

首先 ， 根 名 字 服 务 器 为 每 个 顶级 域名 服务 器 (Top-Level Domains TLD) 包含 一 个 
NS 记录 ， 它 可 以 标识 为 DNS 分 层 结构 中 的 一 部 分 〈 本 例 中 的 .edu Al. com) 提供 查询 解 
析 的 服务 器 。 它 还 有 一 个 A 记录 用 来 将 该 名 字 翻 译 为 相应 的 IP 地 址 。 一 起 使 用 这 两 条 记 
录 可 有 效 地 实现 一 个 从 根 名 字 服 务 器 到 每 个 顶级 域名 服务 器 的 指针 。 


(edu, a3.nstid.com, NS, IN) 
(a3.nstld.com, 192.5.6.32, A, IN) 

- (com, a.gtld-servers.net, NS, IN) 
(a.gtld-servers.net, 192.5.6.30, A, IN) 


沿 分 层 结构 向 下 走 一 层 ，a3. nstld. com 服务 器 有 . edu 域 的 记录 ， 如 下 


(princeton.edu, dns.princeton.edu, NS, IN) 
(dns.princeton.edu, 128.112.129.15, A, IN) 


在 这 种 情况 下 ， 我 们 得 到 分 层 结 构 中 负责 princeton. edu 部 分 的 名 字 服 务 器 的 NS 记录 和 A 
记录 。 这 个 服务 器 可 能 会 直接 解析 一 些 查询 (如 ， 对 email. princeton. edu 的 查询 )， 而 把 
其 他 查询 重 定向 到 甚至 位 于 分 层 结构 中 另 一 层 中 的 一 个 服务 器 (如 ， 对 penguins. 
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cs. princeton. edu 的 查询 ) 。 


(email.princeton.edu, 128.112.198.35, A, IN) 
(penguins.cs.princeton.edu, dns1.cs.princeton.edu, NS, IN) 
(dns1.cs.princeton.edu, 128.112.136.10,A, IN) 


最 后 ， 第 三 级 名 字 服 务 器 ， 例 如 由 域 cs. princeton. edu 管理 的 名 字 服 务 器 ， 包 含有 域 
内 所 有 主机 的 A 类 记录 。 它 也 可 以 为 每 一 台 主 机 都 定义 一 个 别名 (CNAME 记录 ) 集合 。 
别名 有 时 只 是 便于 计算 机 人 处理 的 (如 更 短 的 ) 名 字 ， 但 它们 也 能 用 来 提供 一 个 间接 层 。 例 
hl. www. cs. princeton. edu 是 名 为 coreweb. cs. princeton. edu 的 主机 的 别名 ， 这 人 允许 站 点 
的 Web 服务 器 在 不 影响 远程 用 户 的 情况 下 转移 到 其 他 机 器 上 。 远 程 用 户 可 简单 地 继续 使 
用 该 别名 而 不 考虑 当前 哪 台 计 算 机 运行 着 该 域 的 Web 服务 器 。 邮 件 交 换 (MX) 类 记录 对 - 
节 件 应 用 有 同样 的 用 途 ， 它 允许 管理 者 改变 代表 本 域 接收 邮件 的 主机 而 不 必 改 变 每 个 人 的 
邮件 地 址 。 


(penguins.cs.princeton.edu, 128.112.155.166, A, IN) 
(www.cs.princeton.edu, coreweb.cs.princeton.edu, CNAME, IN) 
coreweb.cs.princeton.edu, 128.112.136.35, A, IN) 
(cs.princeton.edu, mail.cs.princeton.edu, MX, IN) 
(mail.cs.princeton.edu, 128.112.136.72,A, IN) 


注意 ,虽然 可 以 为 任意 类 型 的 对 象 定义 资源 记录 ， 但 是 通常 DNS 用 于 命名 主机 ( 包 
括 服 务 需 ) 和 站 点 。 它 不 用 于 命名 个 人 或 其 他 像 文件 和 目录 之 类 的 对 象 ， 通 常用 其 他 命名 
系统 来 识别 这 样 的 对 象 。 例 如 ，X. 500 是 一 个 ISO 命名 系统 ， 设 计 它 的 目的 是 为 了 更 容易 
识别 个 人 。 它 允许 你 通过 给 出 一 组 属性 : 名字 、 头 衔 、 电 话 号 码 、 邮 政 地 址 等 来 命名 个 
人 。X.500 被 证 明 过 于 繁琐 ， 并 且 在 某 种 意义 上 ， 它 已 经 被 现存 的 Web 上 强 有 力 的 搜索 
引擎 所 取代 ， 但 它 最 终 发 展 成 轻 量 目录 访问 协议 (Lightweight Directory Access Protocol, 
LDAP). LDAP 是 X. 500 的 一 个 子 集 ， 最 初 被 设计 为 X. 500 的 PC 前 端 。 今 天 ， 它 作为 一 
个 了 解 用 户 信息 的 系统 主要 流行 于 企业 中 。 

3. 名 字 解 析 

给 出 名 字 服 务 需 的 分 层 结构 后 ， 我 们 现在 来 考虑 客户 如 何 让 这 些 服务 器 解析 域名 的 问 
题 。 为 了 解释 其 基本 思想 ， 假 设 客户 想 要 解析 与 上 一 小 节 给 出 的 服务 器 集合 有 关 的 名 字 
penguins. cs. princeton. edu。 客 户 首 先 发 送 一 个 包含 这 个 名 字 的 查询 给 根 服务 器 (你 将 在 
下 面 看 到 ， 这 在 实际 中 是 很 少 发 生 的 ， 但 对 于 目前 解释 基本 操作 来 说 ， 已 经 足够 了 )。 根 
服务 希 不 能 严 配 整个 名 字 ， 只 返回 一 个 它 所 能 提供 的 最 佳 匹 配 ， 即 指向 TLD 服务 器 
a3. nstld. com 的 edu 的 NS 记录。 服务 堪 也 返回 与 此 记录 相关 的 所 有 记录 ， 在 这 种 情况 
下 ， 返 回 的 是 a3. nstld. com 的 A 类 记录 。 客 户 没 有 得 到 想 要 的 答案 ， 接 着 发 送 同样 的 查 
询 给 IP 主机 为 192. 5. 6. 32 的 名 字 服 务 器 。 这 个 服务 器 也 不 能 匹配 整个 名 字 ， 因 此 返回 
princeton. edu WAJ NS 类 记录 和 相应 的 A 类 记录 。 客 户 再 一 次 发 送 同 样 的 查询 给 IP 主机 
为 128. 112. 129. 15 的 服务 器 ， 这 次 得 到 cs. princeton. edu 域 的 NS 类 记录 和 相应 的 A 类 
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ese. WEA BGA T REI EE TIA AMIR Ae. Bela. MAR HAF 128.112. 136.10 发 送 
# if], i& E] penguins. cs. princeton. edu 的 A # id x. BPH Me ae Wy IP 地 址 
是 128.112. 155. 166, 

这 个 例子 仍 留 下 两 个 有 关 解 析 处 理 的 问题 没有 回答 。 第 一 个 问题 是 ， 客 户 如 何 首 先 确 
定 根 服务 器 的 位 置 ， 或 者 说 ， 怎 样 解析 那 台 知 道 如 何 解 析 这 些 名 字 的 服务 器 的 名 字 ? 在 任 
何 命名 系统 中 ， 这 都 是 一 个 最 基本 的 问题 ， 答 案 是 必须 以 某 种 方式 启动 系统 . 在 这 种 情况 
下 .一 个 或 多 个 根 服务 器 的 名 字 到 地 址 的 映射 是 众所周知 的 ， 就 是 通过 某 种 名 字 系 统 以 外 
的 方式 发 布 。 

然而 实际 中 ， 并 不 是 所 有 客户 都 知道 根 服 务 锅 。 相 反 ， 运行 在 因特网 的 每 一 台 主 机 上 
的 客户 程序 在 初始 化 时 都 设置 了 一 个 本 地 (local) 名 字 服 务 器 地 址 。 例 如 ，Princeton 大 
学 计算 机 科学 系 的 所 有 主机 都 知道 名 字 服 务 器 是 dnsl. cs. princeton. edu。 这 个 本 地 名 字 服 
务 器 又 有 一 个 或 多 个 根 服务 需 的 资源 记录 ， 例 如 : 


(‘root’, a.root-servers.net, NS, IN ) 
(a.root-servers.net, 198.41.0.4,A, IN) 


这 样 ， DT SE Be Be PE HAS STI A SAS TOR te HE Py — 4 tg JOR 
的 客户 查询 远程 服务 器 。 这 种 客户 /服务 器 之 间 的 交互 结果 如 图 9-18 所 示 。 这 种 模式 的 一 
个 优点 是 因特网 中 的 所 有 主机 不 必 保 留 最 新 的 根 服务 融 的 位 置信 息 ， 而 只 是 服务 需 必 须知 
道 根 服务 器 的 情况 。 第 二 个 优点 是 本 地 服务 器 可 以 看 到 由 所 有 本 地 客户 发 出 查询 而 返回 的 
应 答 。 本 地 服务 需 缓 存 (cache) 这 些 应 答 ， 有 时 候 不 用 出 网 就 能 够 解决 未 来 的 查询 .由 
远程 服务 器 返回 的 资源 记录 的 TTL 字段 指出 每 个 记录 能 被 可 靠 缓存 的 时 间 期 限 。 这 种 绥 
存 机 制 也 可 以 用 于 分 层 结 构 的 上 层 ， 以 便 减 小 根 服务 器 和 TLD 服务 器 的 负荷 
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图 9-18 实际 中 的 名 字 解 析 ， 数 字 1 一 10 显示 处 理 步骤 的 顺序 
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第 二 个 问题 是 当 用 户 提交 一 个 部 分 名 字 (如 penguins) 而 不 是 完整 域名 (如 pen- 
guins. cs. princeton. edu) 时 系统 如 何 工 作 。 答案 是 将 客户 程序 配置 为 主机 所 在 的 本 地 域 
(如 cs. princeton. edu). 在 发 出 查询 之 前 将 其 追加 到 任何 一 个 简单 名 字 之 后 。 

结论 ”现在 我 们 清楚 了 三 个 不 同 层次 的 标识 符 ( 域 名 、IP 地 址 和 物理 网 络 地 

址 ) 并 且 一 层 标识 符 到 另 一 层 标 识 符 的 映射 发 生 在 网 络 体系 结构 的 不 同 点 上 。 首 

先 ， 当 用 户 与 应 用 程序 交互 时 指明 域名 。 第 二 ， 应 用 程序 令 DNS 将 这 个 名 字 翻 

译 为 一 个 IP 地 址 ， 放 在 每 个 数据 报 中 的 是 IP 地 址 而 不 是 域名 。 (另外 ， 这 个 翻 

译 过 程 涉及 通过 因特网 发 送 IP 数据 报 ， 但 是 这 些 数据 报 寻 址 到 运行 名 字 服 务 器 

的 主机 ， 而 不 是 最 终 目 标 )。 第 三 ，IP 在 每 台 路 由 器 上 执行 转发 ， 这 常常 意味 着 

将 一 个 IP 地 址 映射 为 另 一 个 IP 地 址 ， 即 将 最 终 目 标 地 址 映射 为 下 一 跳 路 由 器 的 

地 址 。 最 后 ，IP 使 用 ARP 将 下 一 跳 路 由 器 的 IP 地址 翻译 成 机 器 的 物理 地 址 ， 下 

一 跳 可 能 是 最 终 目 标 也 可 能 是 中 间 路 由 器 。 在 物理 网 络 上 发 送 的 帧 的 首部 中 有 这 

些 物 理 地 址 。 


相关 主题 

命名 惯例 

我 们 对 于 DNS 的 描述 着 重 于 基本 机 制 (mechanism)， 即 多 个 服务 器 上 的 分 层 结构 如 
何 划分 及 解析 过 程 如 何 工 作 。 同 样 值得 注意 但 没什么 技术 性 的 问题 是 决定 这 些 机 制 中 使 用 
的 命名 惯例 (convention)。 例 如 ， 所 有 美国 大 学 都 在 edu 域 内 是 一 个 惯例 ， 而 英国 的 大 学 
则 在 uk (United Kingdom， 联 合 王国 ) 域内 的 ac (academic， 学 术 ) FRA. 

要 知道 有 时 候 惯例 的 定义 并 没有 任何 人 做 明确 的 决定 。 例 如 ， 按 惯例 一 个 站 点 将 为 其 
提供 邮件 交换 服务 的 主机 隐藏 在 MX 记录 后 。 男 一 个 可 采用 的 惯例 是 将 邮件 送 给 user@ 
mail. cs. princeton. edu， 很 像 我 们 期 望 在 ftp. cs. princeton. edu 上 找到 站 点 的 一 个 公共 
FTP 目录 和 在 www. cs. princeton. edu 上 找到 它 的 WWW 服务 器 。 

惯例 也 存在 于 本 地 级 别 的 命名 中 ， 组织 根 据 某 种 统一 的 规则 集合 为 其 计算 机 命名 。 在 
因特网 中 ， 主 机 名 venus, saturn 和 mars 非常 普遍 ， 找 到 公共 的 命名 惯例 并 不 难 。 然 而 ， 
一 些 主 机 的 命名 惯例 更 有 想象 力 。 人 例如， 一 个 站 点 将 它 的 计算 机 命名 为 up, down, 
crashed, rebooting 等 ， 结 果 会 造成 像 “rebooting has crashed” 或 “up is down” 等 让 人 
迷惑 的 说 法 。 当 然 ， 也 有 些 名 字 没 有 什么 想象 力 ， 比 如 那些 以 整数 命名 的 机 器 。 








9.3.2 网 络 管理 (SNMP) 


无 论 从 网 络 所 涉及 的 节点 数 来 说 ， 还 是 从 能 够 运行 在 任何 一 个 节点 上 的 协议 族 来 说 ， 
网 络 都 是 一 个 复杂 的 系统 。 即 使 只 关心 在 单一 管理 域 中 的 节点 ， 比 如 一 个 校园 网 ， 那 也 可 
能 有 几 十 台 路 由 融和 成 百 黄 至 上 千 台 主机 需要 跟踪 。 如 果 你 想 对 任何 一 个 节点 上 的 诸如 地 
址 转换 表 、 路 由 表 、TCP 连接 状态 等 状况 都 进行 维护 和 操作 ,管理 所 有 这 些 信息 的 前 景 
RREZES AHE. 

我 们 很 希望 了 解 在 不 同 节 点 上 各 种 协议 的 状态 。 例 如 ， 你 可 能 想 要 监测 重组 失败 的 IP 
数据 报 的 数目 ， 以 便 决定 是 否 需 要 调整 碎片 收集 程序 用 于 收集 部 分 组 装 的 数据 报 的 超时 时 
闻 。 在 另 一 个 例子 由 ， 你 可 能 想 要 追踪 各 种 节点 上 的 负载 〈 如 发 送 或 接收 分 组 的 数目 )， 
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以 便 决 定 是 否 需 要 在 网 络 中 加 入 新 的 路 由 硕 或 链 路 。 当然 ， 你 也 必须 监视 硬件 故障 和 软件 
异常 反应 。 

刚才 我 们 描述 了 网 络 管理 的 问题 ， 它 遍及 整个 网 络 体系 结构 。 由 于 我 们 想 杰 跟 踊 的 节 
点 是 分 布 式 的 ， 所 以 我 们 仅 有 的 实际 选择 是 使 用 网 络 管理 网 络 。 这 意味 着 我 们 需要 一 种 协 
议 ， 它 允许 读 〈( 可 能 还 需要 ) 写 不 同 网 络 节 点 上 的 各 种 状态 信息 。 用 于 此 目的 的 使 用 最 广 
泛 的 协议 是 简单 网 络 管理 协议 (Simple Network Management Protocol. SNMP). 

SNMP 本 质 上 是 一 种 专用 的 请 求 / 响 应 协议 ， 它 支持 两 种 请 求 消息 : GET 和 SET。 前 
者 用 于 从 某 个 节点 上 获取 状态 ， 而 后 者 用 于 把 新 状态 存储 到 某 个 节点 上 -. (SNMP 也 支持 
第 三 种 操作 GET-NEXT， 我 们 会 在 下 面 解释 它 .) 下 面 重点 讨论 GET Ri. 因为 它 是 使 
用 最 频繁 的 一 种 操作 。 

SNMP 的 使 用 方法 很 简单 :系统 管理 员 与 显示 网 络 信 息 的 客户 程序 进行 交互 。 这 个 客 
户 程序 通常 有 图 形 界面 。 你 可 以 认为 这 个 界面 扮演 着 与 Web 浏览 器 相同 的 角色 。 只 要 管 
理 员 选 定 了 他 想 看 的 特定 信息 ， 客 户 程 序 就 使 用 SNMP 向 被 询问 的 那个 节点 请 求 所 要 的 
言 息 (SNMP 运行 在 UDP 之 上 )。 运 行 在 那个 节点 上 的 SNMP 服务 器 接收 请 求 . 找到 人 恰 
当 的 信息 ， 并 将 它 返 回 到 客户 程序 ， 然 后 再 显示 给 用 户 。 

这 种 特别 简单 的 场景 中 仅 存 在 一 个 复杂 的 问题 : 客户 怎样 正确 指明 它 想 要 哪些 信息 、 
同样 ， 服 务 器 如 何 知道 读 出 内 存 中 的 哪个 变量 来 满足 这 个 请 求 ? 答案 是 SNMP 依赖 于 一 
个 称 为 管理 信息 库 (Management Information Base，MIB) 的 配套 规范 。 这 个 MIB 定义 
了 一 些 特殊 的 信息 (MIB 变量 (variable))， 你 可 以 从 网 络 节点 上 检索 它们 .。 

当前 的 MIB 版 本 称 为 MIB-II， 它 将 变量 组 织 在 10 个 不 同 的 组 (group) 中 。 你 将 发 
现 大 部 分 组 与 本 书 描述 的 某 个 协议 对 应 ， 并 且 每 组 内 定义 的 几乎 所 有 变量 看 上 去 都 很 熟 
悉 。 例 如 : 

。 System: 整个 系统 (节点 ) 的 通用 参数 ,包括 节点 定位 在 何 地 、 它 已 启动 多 长 时 

间 和 系统 的 名 字 。 

。 Interfaces: 关于 连接 到 这 个 节点 上 的 所 有 网 络 接口 GA) 的 信息 ， 比 如 每 个 

接口 的 物理 地 址 、 每 个 接口 上 已 发 送 和 接收 了 多 少 分 组 。 
。 Address translation: 关于 地 址 解析 协议 (Address Resolution Protocol. ARP) 的 
言 息 ， 特 别 是 它 的 地 址 转换 表 的 内 容 。 

。 IP: 与 IP 相关 的 变量 ,包括 它 的 路 由 表 、 它 已 成 功 转发 了 多 少数 据 报 和 重组 数据 
报 的 统计 。 它 还 包括 因 某 种 原因 而 使 IP 丢弃 数据 报 的 次 数 ， 

。 TCP: 关于 TCP 连接 的 信息 ， 如 被 动 打开 和 主动 打开 连接 的 次 数 、 重 置 次 数 、 超 
时 次 数 、 默 认 超 时 设置 等 。 只 要 连接 存在 ， 每 个 连接 的 信息 就 持续 存在 . 

。 UDP: 关于 UDP 通信 和 量 的 信息 ， 包括 已 发 送 和 接收 到 的 UDP 数据 报 的 总 数 

还 有 ICMP, EGP 和 SNMP 自身 的 组 。 第 10 组 用 于 不 同 的 媒体 ， 

再 回 到 这 样 一 个 话题 ， Ree ie Baas Hate B MIB 变量 列表 
仅 完成 了 一 半 的 工作 ， 这 留 下 两 个 问题 。 第 一 ， 我 们 需要 精确 的 语法 ， 使 客户 用 来 说 明 想 
要 取 哪 些 MIB 变量 。 第 二 ， 我 们 需要 一 个 对 服务 器 返回 秆 的 精确 表示 ， 这 两 个 问题 都 使 
用 ASN. 1 来 解决 。 l 

首先 考虑 第 二 个 问题 。 正 如 我 们 已 经 在 第 7 章 中 看 到 的 ，ASN. 1/BER 为 不 同 的 数据 
类 型 定义 表示 法 ， 比 如 整数 。MIB 定义 每 个 变量 的 类 型 ， 然 后 当 它 要 在 网 上 传输 时 ， 用 
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ASN. 1/BER 对 包含 在 这 个 变量 中 的 值 进行 编码 。 至 于 第 一 个 问题 ，ASN. 1 也 定义 了 一 种 
对 象 识 别 方案 ， 这 种 识别 系统 没有 在 第 7 章 中 描述 。MIB 使 用 该 识别 系统 为 MIB 中 的 每 
一 个 变量 指定 了 一 个 全 局 唯一 的 标识 符 。 这 些 标识 符 用 圆 点 “. ” 记 法 给 出 ， 类 似 域名 。 
例如 : 1.3.6.1.2.1.4.3 是 IP 相 关 的 MIB 变 量 ipInReceives 的 唯一 ASN. 1 标识 符 ， 该 变 
量 记 录 本 节点 接收 的 IP 数据 报 的 数目 。 在 本 例 中 ， 前 绥 1. 3. 6.1.2.1 标 识 MIB 数据 库 
GEIE. ASN. 1 对 象 ID 适用 于 世界 上 所 有 可 能 的 对 象 )，4 对 应 于 IP 组， 最 后 的 3 表示 该 
组 中 的 第 三 个 变量 。 

这 样 ， 网 络 管理 按 下 述 步骤 进行 工作 。SNMP 客户 将 需要 的 MIB 变量 的 ASN. 1 标识 
符 放 入 请 求 消息 ， 并 发 送 此 消息 到 服务 器 。 服 务 器 则 将 该 标识 符 映 射 到 一 个 本 地 变量 〈 即 
到 一 个 存储 着 该 变量 值 的 内 存 位 置 )， 取 回 该 变量 的 当前 值 ， 并 且 使 用 ANS. 1/BER 编码 
该 值 后 返回 给 客户 。 

还 有 最 后 一 个 细节 。 许多 MIB 变量 是 表 或 者 结构 ， 这 样 的 组 合 型 变量 说 明了 使 用 
SNMP GET-NEXT 操作 的 理由 。 当 该 操作 应 用 到 一 个 特定 的 变量 ID 时 ,返回 变量 的 值 和 
下 一 个 变量 的 ID， 如 表 的 下 一 项 或 结构 中 的 下 一 个 字段 。 这 有 助 于 客户 “遍历 ” 表 或 结 
构 的 所 有 元 素 。 


94 覆盖 网 络 


起 初 ， 因 特 网 采用 了 清晰 的 模型 即 网 络 中 的 路 由 器 负责 从 源 向 目的 地 转发 分 组 ， 而 
应 用 程序 运行 在 连接 到 网 络 边缘 的 主机 上 。 本 章 前 两 节 讨 论 的 客户 /服务 器 的 应 用 范例 正 
符合 这 种 模型 。 

然而 在 最 近 几 年 ， 分 组 转发 (packet forwarding) 和 应 用 处 理 (application process- 
ing) 之 间 的 区 别 变 得 不 太 清晰 。 新 的 应 用 被 分 布 到 因特网 上 ， 在 许多 情况 下 ， 这 些 应 用 
做 出 自己 的 转发 决定 。 有 时 ， 通 过 扩展 传统 的 路 由 器 和 交换 机 支持 一 定数 量 的 特定 应 用 处 
理 ， 可 以 实现 这 些 新 的 混合 型 应 用 。 人 例如， 所谓 的 七 层 交 换 机 Clevel-7 switch) 位 于 服务 
需 群 前 面 ， 并 根据 请 求 的 URL 将 HTTP HORER EREIZ HE. RIM. BAMA Cover- 
lay network) 作为 把 新 功能 引入 因特网 的 可 选 机 制 迅速 兴起 。 

你 可 以 把 一 个 窗 盖 看 成 一 个 在 底层 网 络 之 上 实现 的 轴 辑 网 络 。 根 据 这 个 定义 ， 因 特 网 
本 身 就 是 建立 在 老 电话 网 链 路 之 上 的 覆盖 网 络 ， 事 实 的 确 如 此 。 图 9-19 描述 了 一 个 实现 
在 底层 网 络 之 上 的 覆盖 。 和 覆盖 中 的 每 个 节点 也 存在 于 底层 网 
络 中 ， 它 按 一 种 特定 于 应 用 的 方法 来 处 理 和 转发 分 组 。 连 接 
畴 盖 节 点 的 链 路 作为 通过 底层 网 络 的 隧道 来 实现 。 多 个 覆盖 
网 络 能 存在 于 同一 个 底层 网 络 之 上 (每 个 实现 它们 自己 的 特 
定 应 用 行为 )， 并 且 覆 盖 可 以 嵌 套 ， 一 个 搭建 在 另 一 个 之 上 。 
例如 ， 本 节 讨 论 的 所 有 覆盖 网 络 示 例 都 将 今天 的 因特网 视 为 
底层 网 络 。 

我 们 看 过 隧道 化 的 例子 ， 例 如 用 于 实现 虚拟 专用 
网 (VPN)。 简 要 复习 一 下 ,隧道 两 端的 节点 视 它们 之 间 的 
多 条 路 径 为 一 个 单一 的 逻辑 链 路 ， 节 点 根据 分 组 外 部 的 首 刘 
通过 隧道 转发 分 组 ， 而 从 不 知道 端 节点 已 经 附加 了 内 部 首 图 9-19 在 物理 网 络 之 上 
部 。 例 如 ， 图 9-20 显示 了 由 一 对 隧道 连接 的 三 个 覆盖 节点 的 获 盖 网 络 
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(A, BAO), BHD B 根 据 内 部 首部 (IHdr) AKA A 的 分 组 做 出 转发 到 C 的 决定 . 
然后 附加 一 个 外 部 首部 (OHdr)， 把 C 标识 为 底层 网 络 的 目的 地 。 节 点 A、B 和 C 能 解释 
内 部 和 外 部 首部 ， 然 而 中 间 的 路 由 需 仅 能 理解 外 部 首部 。 类 似 地 ，A、B 和 C 在 覆盖 网 络 
和 底层 网 络 中 都 有 地 址 ， 但 是 不 一 定 相 同 。 例 如， 它们 的 低层 地 址 可 以 是 32 位 的 IP 地 
址 ， 而 它们 的 覆盖 地 址 可 以 是 实验 性 的 128 位 地 址 。 事 实 上 ， 窗 盖 根 本 不 需要 使 用 传统 地 
址 ， 而 可 以 根据 URL、 域 名 、XML 查询 甚至 分 组 的 内 容 来 决定 路 由 。 
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图 9-20” 穿 过 物理 节点 的 覆盖 节点 隧道 


相关 主题 

覆盖 和 因特网 的 僵化 

由 于 因特网 的 流行 和 广泛 使 用 ， 使 得 人 们 容易 忘记 它 曾 经 是 一 个 为 研究 人 员 实 验 分 组 
交换 网 络 的 实验 设施 。 然 而 ， 因 特 网 在 商业 上 越 是 成 功 ， 作 为 提供 新 思想 的 平台 的 作用 就 
Ahe SR, 商业 利 益 限制 了 因特网 的 持续 发 展 。 

事实 上 ， 来 自 美国 国家 研究 委员 会 (Nation Research Council) 2001 年 的 报告 指出 ， 
不 管 在 智能 (与 现行 标准 的 兼容 性 的 压力 抑制 了 其 进一步 创新 ) 方面 还 是 基础 结构 本 身 
(研究 人 员 影 响 核心 基础 结构 几乎 是 不 可 能 的 ) 方面 ， 因 特 网 都 是 僵化 的 。 同 时 ， 一 整套 
可 能 需要 新 解决 方法 的 新 挑战 也 正在 出 现 。 报 告 指出 ， 进 退 两 难 的 局 面 在 于 : 

eene 成 功 和 广泛 被 采用 的 技术 容易 僵化 ， 使 得 新 功能 很 难 引 进 ， 或 者 如 果 

sige ce es lit 

发 或 部 署 创新 性 的 技术 ……… l 

寻找 引进 创新 技术 的 正确 途径 是 令 人 感 兴趣 的 问题 。 这 样 的 创新 能 把 某 些 事情 做 得 非 
常 好 ， 但 整体 上 它们 落后 于 其 他 重要 领域 的 现 有 技术 。 例 如 ， 为 了 在 因特网 中 引进 一 种 新 
的 路 由 策略 ， 你 必须 构造 一 种 路 由 器 ， 它 不 仅 支持 这 一 新 策略 ， 同 时 也 能 与 市 场 已 有 的 产 
品 在 性 能 、 可 靠 性 、 管 理工 具 集 等 方面 进行 竞争 。 这 是 一 个 过 分 的 要 求 。 创 新 者 需要 的 是 
一 种 方法 ， 人 允许 用 户 利用 新 思想 ,而 又 不 必 编 写 为 支持 基本 系统 所 需 的 成 千 上 万 行 的 
代码 。 

覆盖 网 络 恰 好 提供 了 这 样 的 机 遇 。 可 通过 编程 使 覆盖 节点 支持 新 的 功能 或 特性 ， 并 且 
依赖 传统 节点 提供 低层 连接 。 随 着 时 间 的 推移 ， 如 果 在 覆盖 中 所 用 的 思想 被 证 明 是 有 用 
的 ， 就 可 能 有 经 济 动力 把 这 些 功 能 移植 到 基本 系统 中 ， 即 把 它 加 入 到 商用 路 由 器 的 功能 特 
性 集合 中 。 另 一 方面 ， 这 些 功能 可 能 相当 复杂 ， 足 以 使 覆盖 层 保持 原状 。 


a 


94.1 路 由 覆盖 
最 简单 的 覆盖 是 纯粹 用 来 支持 路 由 的 一 种 替代 策略 ， 在 畴 盖 节 点 上 没有 执行 额外 的 应 
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用 层 处 理 。 可 以 把 虚拟 专用 网 ( 见 4. 1.8 节 ) 看 作 一 个 路 由 选择 覆盖 的 例子 ， 与 其 说 它 定 
义 一 个 替代 策略 或 算法 ， 不 如 说 定义 由 标准 IP 转发 算法 处 理 的 替代 路 由 表 项 。 在 这 种 特 
殊 情况 下 ， 获 羡 使 用 “IP 隧道 "， 而 大 多 数 商 用 路 由 器 支持 利用 这 些 VPN 的 能 力 。 

然而 假设 你 打算 使 用 商用 路 由 器 提供 商 不 想 在 其 产品 中 提供 的 路 由 算法 ,那么 如 何 处 
理 这 种 情况 ?你 可 以 简单 地 在 一 些 端 主机 上 运行 你 的 算法 并 且 以 隧道 方式 穿 过 因特网 路 由 
器 。 这 些 主机 的 行为 像 是 覆盖 网 络 上 的 路 由 器 : 作为 主机 它们 可 能 仅 通过 一 条 物理 链 路 连 
接 到 因特网 ， 但 作为 覆盖 节点 它们 通过 隧道 连接 到 多 个 邻居 。 

因为 覆盖 根据 定义 几乎 是 引入 独立 于 标准 化 处 理 的 新 技术 的 一 种 途径 ， 所 以 我 们 不 能 
把 哪个 标准 餐 盖 作 为 例子 。 相 反 ， 我 们 通过 描述 一 系列 近来 由 网 络 研究 人 员 提 出 的 实验 系 
统 来 说 明 路 由 选择 履 盖 的 一 般 思想 。 

1. IP 实验 版 本 

覆盖 对 于 部 署 你 希望 最 终 将 占领 世界 的 IP 实验 版 本 来 说 是 理想 的 。 例 如 ，IP 多 播 
( 见 4.2 节 ) 开始 是 作为 IP 的 一 种 扩展 ， 但 直到 今天 仍然 有 很 多 因特网 路 由 器 不 支持 它 。 
多 播 主 干 (MBone) 是 在 因特网 单 播 路 由 的 基础 上 实现 的 IP 多 播 的 覆盖 网 络 。Mbone 上 
开发 并 部 署 了 大 量 多 媒体 会 议 工 具 ， 例 如 ，IETF 会 议 〈 它 持续 一 周 并 且 吸 引 了 成 千 上 万 
的 参与 者 )， 多 年 来 都 在 MBone 上 广播 。 

{@ VPN 一 样 ，MBone 同时 使 用 IP 隧道 和 IP 地址， 但 与 VPN 不 同 的 是 ，MBone 实 
现 一 个 不 同 的 转发 算法 一 一 它 转发 分 组 到 最 短路 径 多 播 树 中 的 所 有 下 游 邻 居 。 作 为 覆盖 ， 
支持 多 播 的 路 由 器 建立 穿 过 传统 路 由 器 的 隧道 ， 同 时 希望 有 朝 一 日 它 将 不 再 使 用 传统 路 
由 器 。 

6-BONE 是 一 个 类 似 的 覆盖 ， 它 用 于 逐步 部 署 IPv6。 像 Mbone 一 样 ，6-BONE 通过 
IPv4 路 由 器 用 隧道 转发 分 组 。 然 而 与 MBone 不 同 的 是 ，6-BONE 节点 不 是 简单 地 提供 
IPv4 的 32 位 的 新 解释 ， 而 是 根据 IPv6 的 128 位 地 址 空间 转发 分 组 。 此 外 ，6-BONE th & 
持 多 播 。 

2. 端 系统 多 播 

虽然 IP 多 播 在 研究 者 和 因特网 社团 的 特定 部 分 很 流行 ,但 它 在 全 球 因 特 网 上 的 部 署 
受到 很 大 的 限制 。 因 此 ， 像 视频 会 议 那 样 的 基于 多 播 的 应 用 近来 已 经 转向 另外 一 种 策略 ， 
称 为 端 系统 多 播 Cend system multicast), 。 端 系统 多 播 的 概念 是 承认 IP 多 播 将 不 会 无 处 不 
在 ， 而 代 之 以 让 参与 特定 多 播 应 用 的 端 主机 实现 自己 的 多 播 树 。 

在 描述 端 系统 多 播 如 何 工作 之 前 ， 重 要 的 是 先 理解 它 不 像 VPN 和 MBone， 端 系统 多 
播 假设 只 有 因特网 主机 〈 而 不 是 因特网 路 由 器 ) 参与 覆盖 。 此 外 ， 这 些 主机 通常 是 通过 
UDP 隧道 而 不 是 IP 隧道 相互 交换 消息 ， 使 它 容 易 作 为 常规 的 应 用 程序 来 实现 。 这 使 得 有 
可 能 将 底层 网 络 看 成 是 一 个 全 连通 图 ， 因 为 在 因特网 中 的 每 台 主 机 都 能 向 所 有 其 他 主机 发 
送 消息 。 因 此 ， 可 以 抽象 地 说 端 系统 多 播 解决 了 下 列 问题 : 从 表示 因特网 的 全 连通 图 出 
发 ， 目 标 是 找 出 其 中 跨越 全 体 组 成 员 的 内 艇 多 播 树 。 

既然 我 们 把 底层 的 因特网 看 成 是 全 连通 的 ， 一 种 简单 的 解决 方案 是 使 每 一 个 源 直接 与 
每 个 组 成 员 连 接 。 换 句 话 说 ， 端 系统 多 播 能 够 通过 由 每 个 节点 发 送 单 点 播送 消息 到 每 个 
组 成 员 来 实现 。 为 看 清 这 其 中 的 问题 ， 特 别 是 与 在 路 由 器 中 实现 IP 多 播 相 比较 ， 考 虑 
图 9-21 中 的 示例 拓扑 图 。 图 9-21a 描绘 了 一 个 物理 拓扑 的 例子 ， 其 中 R1 和 R2 是 由 低 带 
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宽 的 横 跨 大 陆 的 链 路 所 连接 的 路 由 器 ;: A、B、C 和 DD 是 端 主机 ， 链 路 的 延迟 作为 边 的 权 
值 。 假 设 A 想 要 发 送 多 播 消息 到 其 他 三 台 主机 ， 图 9-21b 显示 了 简单 的 单 点 播送 通信 是 如 
何 工作 的 。 同 样 的 消息 必须 穿越 A-R1 链 路 三 次 ， 且 消息 的 两 个 副本 穿越 RI-R2， 显 然 这 
是 不 希望 发 生 的 。 图 9-21c 描述 了 通过 DVMRP 构造 的 IP 多 播 树 。 显然 ， 这 一 方法 排除 
了 多 余 的 消息 。 然 而 ， 没 有 路 由 器 的 支持 ， 你 能 希望 得 到 的 最 好 的 端 系 统 多 播 是 一 个 类 似 
于 图 9-19d 显示 的 树 。 端 系统 多 播 定义 了 一 个 构造 此 笃 的 体系 结构 ， 
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图 9-21 映射 到 一 个 物理 拓扑 上 的 可 选 的 多 播 树 


一 般 的 做 法 是 支持 多 层 的 覆盖 网 络 ， 每 一 层 覆 盖 网 络 从 下 -- 层 覆盖 网 络 中 抽取 一 个 子 
图 ， 直 到 我 们 已 经 选择 了 应 用 所 期 望 的 子 图 。 特 
定 的 端 系统 多 播发 生 在 两 个 阶段 : 首先 我 们 在 全 @) © 
连通 的 因特网 项 部 构建 一 个 简单 的 网 格 (mesh). 
然后 我 们 在 此 网 格 内 选择 一 个 多 播 树 。 这 一 思想 
在 图 9-22 中 说 明 ， 我 们 再 次 假设 四 个 端 主机 A, 
B、C 和 D。 第 一 步 是 关键 性 的 : 一 旦 我 们 选择 了 
一 个 合适 的 网 格 覆 盖 ， 我 们 就 在 其 上 简单 地 运行 
一 个 标准 的 多 播 路 由 算法 (如 DVMRP) 来 构造 
多 播 树 。 我 们 还 奢望 忽略 因特网 范围 的 多 播 所 面 
对 的 可 扩展 性 问题 ， 因 为 可 以 选择 仅 包 括 那 些 想 
要 参与 特定 多 播 组 的 节点 的 中 间 网 格 。 

构建 中 间 网 格 覆 盖 的 关键 是 选择 一 个 大 致 对 
应 于 下 层 因 特 网 物理 拓扑 的 拓扑 图 ， 但 我 们 不 得 
不 在 没有 人 告诉 我 们 下 层 因 特 网 实际 看 上 去 如 何 
的 情况 下 去 做 ， 因 为 我 们 仅 在 端 主 机 上 运行 而 不 是 在 路 由 器 上 。 一 般 的 策略 是 为 端 主机 测 
量 到 其 他 节点 的 往返 延迟 ， 并 且 决 定 仅 当 出 现 它们 喜欢 的 链 路 时 才 把 它 加 到 网 格 中 。 这 一 
工作 过 程 如 下 。 

首先 ， 假设 网 格 已 经 存在 ， 每 个 节点 与 它 直接 连接 的 邻居 交换 所 有 其 他 被 认为 是 网 格 
成 员 节 点 的 列表 。 当 某 个 节点 从 邻居 接收 到 这 样 一 个 成 员 列表 后 ， 它 将 信息 加 入 自己 的 成 
员 列 表 中 ， 并 且 将 得 到 的 列表 转发 到 它 的 邻居 。 这 个 信息 最 终 传 闹 网 格 ， 很 像 距 离 向 量 路 
由 协议 。 

当 一 台 主 机 想 要 加 入 多 播 逆 盖 时 ， 它 必须 知道 至 少 一 个 效 盖 中 的 其 他 节点 的 IP 地 址 。 





图 9-22 内 授 到 闲 盖 网 格 中 的 多 播 树 





然后 它 发 送 -- 条 “加 入 网 格 ” 消 息 到 这 个 节点 。 这 样 就 通过 到 已 知 节 点 的 一 条 边 将 新 节点 

连接 到 网 格 . Ai. 新 节点 可 能 将 消息 发 给 多 个 当前 节点 ， 从 而 通过 多 重 连 接 加 入 网 格 。 

一 旦 节点 由 一 组 链 路 连接 到 网 格 ， 它 就 周期 性 地 发 送 “ 保 活 ” 消 息 到 其 邻居 节点 ， 让 邻居 
道 它 仍 想 作 为 组 的 一 部 分 。 

当 一 个 节点 离开 组 时 ， 它 发 送 一 条 “离开 网 格 ” 消 息 到 与 ep 并 且 这 
一 信息 通过 上 面 描述 的 成 员 列 表 传 播 到 在 网 格 中 的 其 他 节点 。 另 外 ， 节 点 可 能 发 生 故 障 ， 
或 仅仅 是 决定 要 默默 地 退出 组 .在 这 种 情况 下 ， 邻居 测定 出 它 不 再 送出 ane 消息 。 一 

些 节点 的 离开 对 网 格 的 影响 很 小 ， 但 节点 应 检测 到 网 格 由 于 离开 的 节点 而 被 分 区 ， 它 通过 
给 另 一 个 区 域 的 节点 扣发 送 “加 入 网 格 ”的 消息 ， 建 立 一 条 到 那个 节点 的 新 边 。 注 意 多 个 邻 
居 能 同时 判定 在 网 格 中 已 经 出 现 分 区 ， 导 致 多 个 跨 区 域 的 边 被 加 入 到 网 格 中 。 

综 上 所 述 ， 我 们 将 得 到 一 个 网 格 ， 它 是 原 有 全 连通 因特网 的 子 图 ， 但 它 的 性 能 可 能 是 
次 优 的 ， 因 为 四 初始 的 邻居 选择 向 拓扑 中 加 入 了 随机 的 链 路 ， 四 分 区 的 修复 可 能 增加 当时 
重要 但 不 是 长 期 有 用 的 边 ，@ 组 成 员 可 能 由 于 动态 的 加 入 和 离开 而 变化 ，@ 底 层 网 络 条 件 
可 能 变化 。 因 此 需要 系统 计算 每 条 边 的 值 ， 导 致 不 断 对 网 格 加 入 新 边 和 删除 边 。 

为 增加 新 边 ， 每 个 节点 i 周期 性 地 探测 那些 目前 没有 连接 到 网 格 中 的 任意 成 员 ;}， 测 
量 边 (i, j) 的 往返 时 延 ， 然 后 评估 加 入 此 边 的 效用 。 如 果 效 用 超过 某 个 浆 值 ， 链 路 (i, j) 
被 加 入 到 网 格 。 评 估 加 入 边 (7, D 的 效用 的 过 程 如 下 : 

EvaluateUtility()) 

utility = 0 

对 于 每 个 不 等 于 /的 成 员 必 

CL = 通过 网 格 路 由 到 节点 im 的 当前 时 延 
NL = 在 网 格 中 增加 边 ( j) 后 到 节点 罗 的 新 时 延 
if (NL < CL) then 

utility += (CL - NL)/CL 

return utility 
决定 删 去 一 条 边 与 之 类 似 ， 只 是 每 个 节点 i 计算 到 当前 邻居 j 的 每 条 链 路 的 代价 的 过 程 
如 下 : 


EvaluateCost( j) 
Cost = 以 /作为 1 的 下 一 跳 的 成 员 的 数量 
Costj; = 以 /作为 /的 下 一 跳 的 成 员 的 数量 
return max(Cost,,, Cost ;) 
然后 挑 出 一 个 代价 最 低 的 邻居 ， 并 且 如 果 代 价 低 于 某 个 国 值 就 亚 弃 它 。 
最 后 ， 因 为 维护 网 格 所 本 质 上 使 用 的 是 距离 向 量 路 由 协议 ， 所 以 运行 DVMRP 在 网 格 
中 找 出 适当 的 多 播 树 是 轻而易举 的 。 注意， 尽管 不 可 能 证 明 刚才 描述 的 协议 可 形成 最 优 网 
格 ， 但 允许 DVMRP 选择 可 能 最 佳 的 多 播 树 ， 仿 真 和 大 量 的 实践 经 验 显示 它 的 效果 不 错 。 
3. PAPERE ie Bd 
Jy — E E ai T AS PRL i e A EERE SR PR A. A A T A 
PERR =f AERAR K 9-23 说 明了 这 个 问题 。 在 因特网 中 找 出 这 样 的 三 个 
站 点 不 足 为 奇 〈 把 它们 称 为 A、 E AAD ey ep 
和 ， 就 是 说 ， 有 时 通过 中 间 节 点 间接 发 送 分 组 比 直接 将 其 发 送 到 目的 地 要 好 一 些 。 
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图 9-23 三 角 不 等 式 在 网 络 中 不 一 定 成 立 


怎么 会 这 样 呢 ?BGP 从 来 不 许诺 它 能 找 出 任意 两 个 站 点 间 的 最 短 (shortest) FR. 
它 只 能 尝试 找 出 某 条 (some) 路 由 。 更 精 糕 的 是 ，BGP 路 由 受 政策 问题 影响 严重 ， 比 如 
谁 向 谁 付费 以 承载 流量 。 这 是 经 常 发 生 的 ， 例 如 在 重要 的 主干 网 ISP 之 间 的 对 等 点 上 。 简 
言 之 ， 不 应 该 再 对 因特网 中 三 角 不 等 式 不 成 立 感到 惊奇 。 

我 们 如 何 利用 这 一 观测 现象 呢 ? 第 一 步 是 认识 到 在 可 扩展 性 与 路 由 算法 的 最 优 性 之 间 
有 一 个 基本 的 平衡 。 一 方面 ，BGP 适合 非常 大 的 网 络 ， 但 常常 不 选择 可 能 的 最 佳 路 由 ， 并 
且 对 网 络 故 障 的 适应 是 很 慢 的 。 另 一 方面 ， 如 果 你 仅 关 心 在 少数 站 点 之 中 找到 最 佳 路 由 . 
那么 你 在 监视 可 能 使 用 的 每 条 路 径 的 质量 方面 应 该 做 得 好 得 多 ， 因 此 允许 选择 在 任 一 时 刻 
的 最 佳 可 能 路 由 。 

一 个 称 为 弹性 覆盖 网 络 (Resilient Overlay Network, RON) 的 实验 性 覆盖 正好 完成 
这 一 工作 。 因 为 RON 使 用 nxXn 的 策略 ， 在 每 对 站 点 之 间 密 切 监视 (通过 主动 探测 ) 路 径 
质量 的 三 个 方面 一 一 时 延 、 可 用 带宽 和 分 组 丢失 率 ， 它 的 规模 仅 能 达到 几 十 个 节点 。 这 既 
能 在 任 一 对 节点 间 选 择 最 佳 路 由 ， 也 能 在 网 络 条件 变 化 时 快速 更 改 路 由 。 实 践 表明 ，RON 
能 为 应 用 带 来 适度 的 性 能 改进 ， 但 更 重要 的 是 ， 它 能 从 网 络 故障 中 更 快 地 恢复。 例如 ， 
2001 年 在 64 小 时 的 时 间 内 ， 一 个 运行 在 12 个 节点 的 RON 实例 检测 到 持续 达 30 分 钟 的 
32 次 故障 ， 并 且 它 也 能 在 平均 20 秒 内 从 中 恢复 。 这 次 实验 也 表明 ， 仅 通过 一 个 中 间 节 点 
转发 数据 ， 通 常 也 就 足以 从 因特网 的 故障 中 恢复 。 

因为 RON 规模 不 能 扩展 ， 所 以 使 用 RON 去 帮助 任意 主机 A 与 任意 主机 B 通信 是 不 
可 能 的 。A 和 B 必须 事先 知道 它们 可 能 通信 ， 然 后 加 入 到 同一 个 RON。 然 而 ，RON 在 某 
些 情 况 下 似乎 是 一 个 好 主意 ， 如 当 连 接 几 十 个 分 布 在 因特网 中 的 公司 站 点 时 ， 或 允许 你 和 
你 的 50 个 朋友 为 了 运行 某 个 应 用 而 建立 你 们 的 私有 虱 盖 时 。 但 实际 问题 是 当 每 人 都 开始 
运行 他 们 自己 的 RON 时 将 会 发 生 什 么 ? 上 百 万 的 RON 主动 探测 路 径 是 否 会 使 网 络 不 堪 
重负 ? 并 且 当 许多 RON 竞争 同样 的 路 径 时 ， 是 否 有 任何 一 个 RON 会 获得 改进 的 性 能 ? 
这 些 问 题 仍 然 无 法 回答 。 

结论 ”一般 而 言 ， 这 些 和 覆盖 说 明了 计算 机 网 络 的 一 个 核心 概念 : 虚拟 化 《virtual- 

ization)O 。 就 是 说 ， 在 由 物理 资源 构建 的 物理 网 络 之 上 用 抽象 〈 远 辑 ) 资源 构建 





O 术语 虚拟 化 现在 更 多 地 用 在 数据 中 心计 算 的 背景 下 ， 指 的 是 使 用 超级 管理 程序 或 类 似 技术 进行 服务 器 的 虚拟 
化 ， 但 它 其 实 是 一 个 更 广泛 的 概念 。 





一 个 虚拟 网 络 是 可 能 的 。 而 有 全， 这 些 虚 拟 化 的 网 络 可 以 堆 营 ， 多 个 虚拟 网 络 可 共 
存在 同一 层 上 .每 个 虚拟 网 络 又 为 一 些 用 户 、 应 用 或 高 层 网 络 提供 有 价值 的 新 
功能 。 


94.2 对 等 网 


像 Napster@ 和 KaZaA 这 样 共享 音乐 的 应 用 已 将 术语 “对 等 ”的 概念 引入 流行 的 行 话 
里 。 但 是 对 一 个 系统 而 言 , “对 等 ” ”究竟 意味 着 什么 ? 当然 ， 在 共享 MP3 文件 的 环境 中 ， 
它 意 味 着 不 必 从 中 心 站 点 下 载 音 乐 ， 而 是 能 够 直接 从 因特网 中 其 他 存放 音乐 拷贝 的 机 器 上 
下 载 。 更 宽泛 地 讲 ， 我 们 可 以 说 对 等 网 允许 一 个 用 户 团体 把 他 们 的 资源 〈 内 容 、 存 储 、 网 
络 带 宽 、 人 磁盘 带宽 、CPU) 放 到 一 个 缓冲 池 中 ， 从 而 提供 对 更 大 的 档案 库 、 更 大 的 视 音 频 
会 议 、 更 复杂 的 搜索 和 计算 等 的 访问 ， 这 是 任何 用 户 不 能 单独 提供 的 。 

通常 ， 当 讨论 对 等 网 时 ， 一 提 到 像 非 集中 (decentralized) 和 自 组 织 (self-organi- 
zing) 这 样 的 属性 就 意味 着 单个 节点 在 没有 任何 集中 式 协商 的 情况 下 ， 把 它们 自己 组 织 
一 个 网 络 。 这 些 术 语 也 能 用 于 描述 因特网 本 身 。 人 然而 具有 讽刺 意味 的 是 ， 依 照 这 个 定义 来 
衡量 ，Napster 算 不 上 一 个 真正 的 对 等 系统 ， 因 为 它 依赖 于 已 知 文件 的 中 心 注册 目录 ， 用 
户 为 了 找到 提供 某 个 指定 文件 的 机 器 ， 必 须 查 找 这 个 目录 。 只 有 最 后 一 步 (真正 下 载 文 
件 ) 才 发 生 在 两 个 用 户 的 计算 机 之 间 ， enh a EL 
唯一 的 不 同 是 服务 融 届 于 所 eileen 的 客户 而 不 是 一 家 大 公 

因此 ， 我 们 回 到 最 初 的 问题 : 就 对 等 网 而 言 什么 疆 _ 种 回答 是 定位 一 个 感 兴 
趣 的 对 象 和 把 它 下 载 到 作 :的 计算 机 上 的 过 程 都 不 必 与 同一 个 中 央 权 威 机 构 联 系 ， 同 时 系统 
能 够 扩展 到 几 百 万 个 节点 。 能 够 以 非 集中 方式 完成 这 两 项 任务 的 对 等 系统 原来 就 是 一 个 覆 
盖 网 ， 其 中 节点 就 是 那些 愿意 共享 感 兴趣 的 对 象 〈 例 如 音乐 和 其 他 各 类 文件 ) 的 主机 ， 而 
连接 这 些 节 点 的 链 路 (隧道 ) 代表 为 了 追踪 那些 你 想 要 的 对 象 而 必须 访问 的 机 器 序列 。 我 
们 看 完 下 面 两 个 例子 之 后 ， 这 种 描述 就 会 变 得 更 加 清晰 。 

1. Gnutella 

Gnutella 是 一 个 早期 的 对 等 网 ， 它 试图 区 别 交 换 音 乐 〈 可 能 侵犯 某 人 的 版 权 ) 和 一 般 
的 共享 文件 (这 应 该 是 件 好事 ， 因 为 我 们 从 2 岁 起 就 学 习 共 享 了 )。Gnutella 的 吸引 人 之 


siege 已 是 最 早 不 依赖 于 对 象 集中 式 注 册 目 录 的 系统 之 一 。 相 反 ，Gnutella 的 参与 者 把 自 
安排 在 一 个 类 似 于 图 9-24 所 示 的 畴 盖 网 上 。 就 是 说 ， 

ts Gnutella 软件 〈 即 实现 Gnutella 协议 ) 的 每 个 节点 知 © 

同样 运行 Gnutella 软件 的 其 他 计算 机 。“A M BATAN” @ 


的 关系 对 应 于 这 个 图 的 边 。( 后 而 我 们 会 谈 到 这 幅 图 是 如 何 
形成 的 。) 

每 当 一 个 给 定 节点 上 的 用 户 想 找 一 个 对 象 时 ，Gnute- / 
la 为 它 发 出 一 条 QUERY 消息 (例如 指出 文件 的 名 字 ) © } i ® 
给 它 的 邻居 。 如 果 一 个 邻居 有 些 对象 ， 它 就 用 QUERY S 
RESPONSE 消息 回答 发 出 查询 的 节点 ， 指出 从 哪里 ( 例 © D © 
如 一 个 IP 地 址 和 TCP 端口 号 ) 可 以 下 载 想 要 的 对 象 。 那 
个 节点 随后 使 用 GET 或 PUT 消息 访问 对 象 。 如 果 节 点 图 9-24 Gnutella 对 等 网 
不 能 解析 这 个 查询 ， 它 将 QUERY 消息 转发 给 它 的 每 个 的 拓扑 示例 
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邻居 〈 除 发 出 查询 的 节点 外 )， 然 后 这 个 过 程 重复 进行 。 换 名 话说 ， 为 了 了 定位 对 象 
Gnutella 在 覆盖 上 扩散 。Gnutella 为 每 一 个 查询 设置 一 个 TTL， 所 以 这 种 扩散 不 会 无 休 
止 地 进行 下 去 。 

除了 TTL 和 查询 串 ， 每 一 条 QUERY 消息 包含 唯一 的 一 个 查询 标识 符 CQD). 但 
是 它 不 包含 初始 消息 源 的 标识 。 相 反 ， 每 个 节点 维护 近期 看 到 的 QUERY 消息 的 一 个 记 
K: QID 和 给 它 发 QUERY 的 邻居 。 它 以 两 种 方式 使 用 这 一 历史 记录 ， 首先， 如 果 节 点 
收 到 的 QUERY 的 QID 与 它 最 近 看 到 的 QID FAVE MC. 那么 它 不 转发 这 条 QUERY 消息 ， 
这 样 可 以 比 使 用 TTL 更 快 地 结束 转发 循环 。 第 二 ,每 当 节 点 从 下 游 邻 居 收 到 一 个 
QUERY RESPONSE, BTA E E E 
点 。 这 样 ， 响 应 会 返回 初始 节点 ， 而 没有 一 个 中 间 节 点 知道 最 初 是 谁 想 要 这 个 特定 的 
对 象 。 

回 到 如 何 生 成 图 的 问题 ， 当 一 个 节点 加 入 Gnutella 覆盖 时 ， 当 然 必须 至 少 知道 一 个 其 
他 节点 。 新 节点 至 少 通过 一 个 这 样 的 链 路 连 到 覆盖 。 然后， 节点 通过 QUERY RE- 
SPONSE 消息 了 解 其 他 节点 ， 既 包括 它 请 求 的 对 象 ， 也 包括 响应 恰好 通过 的 节点 . 节点 自 
由 决定 要 把 所 发 现 的 哪 一 个 节点 作为 邻居 。Gnutella 协议 提供 PING 和 PONG 消息 ， 通 过 
这 两 个 消息 ， 节 点 分 别 探测 一 个 给 定 的 邻居 是 否 仍 然 存 在 以 及 它 是 否 响 应 。 

应 该 明白 ，Gnutella 不 是 一 个 特别 聪明 的 协议 ， 其 后 的 系统 已 在 努力 改进 它 。 可 能 改 
进 的 一 个 方面 是 如 何 传播 查询 。 扩 散 有 一 个 很 好 的 特性 ， 它 保证 可 以 在 最 少 可 能 的 跳 数 内 
找到 期 望 的 目标 ， 但 是 它 的 扩展 性 不 好 。 它 可 能 随机 转发 查询 ， 或 者 根据 以 往 结果 的 成 功 
概率 转发 查询 。 第 二 个 方面 是 竭力 复制 对 象 ， Sisal OS Es EENEN 
个 拷贝 。 另 外 ， 你 也 可 能 提出 一 个 完全 不 同 的 策略 ， 这 是 我 们 下 面 将 要 考虑 的 问题 

2. 结构 化 覆盖 

在 文件 共享 系统 已 经 奋力 填补 Napster 留 下 空白 的 同时 ,研究 团体 也 为 对 等 网 探索 了 
一 种 替代 的 设计 。 与 Gnutella 网 络 本 质 上 的 随机 (〈 非 结构 化 ) 演化 方式 相对 昭 . 我 们 把 这 
样 的 网 络 称 为 结构 化 的 (structured)。 类 似 于 Gnutella 的 非 结 构 化 覆盖 使 用 简单 的 宪 盖 构 
造 和 维护 算法 ,但 它们 最 多 提供 不 可 靠 的 、 随 机 的 搜索 。 相 反 ， 为 了 与 一 个 特定 图 的 结构 
保持 一 致 ， 结 构 化 覆盖 a RA 二 并 二 全 
但 是 在 覆盖 构造 和 维护 中 增加 了 复杂 性 。 

如 果 你 从 更 高 的 层次 上 想 一 下 我 们 要 做 什么 ,那么 需要 考虑 两 个 问题 : 四 我 们 如 何 将 
对 象 映射 到 节点 ? 四 我 们 如 何 把 请 求 路 由 到 负责 存储 给 定 对 象 的 节点 ?我们 从 第 一 个 问题 
开始 ， 这 个 问题 有 一 种 简单 的 陈述 : 我 们 如 何 将 名 为 x 的 对 象 映射 到 某 个 能 为 它 提供 服务 
的 节点 的 地 址 上 ? 传统 的 对 等 网 对 于 哪个 节点 存储 对 象 x 没有 控制 权 ， 而 如 果 我 们 能 控 
制 对 象 在 网 上 如 何 分 布 ， 那 么 以 后 我 们 就 更 容易 找到 这 些 对 象 。 

将 名 字 映 射 到 地 址 的 一 种 常用 技术 是 散 列 表 

hash(x)—n 
意味 着 首先 将 对 象 z 放 到 节点 nw 上 ， 此 后 ， 想 要 定位 x 的 客户 只 要 计算 x 的 散 列 值 就 能 确 
定 它 在 节点 n 上 。 基 于 散 列 的 方法 有 一 个 非常 好 的 特性 ， 它 易于 将 对 象 均匀 分 布 到 一 组 节 
点 上 ， 但 是 简单 的 散 列 算法 有 一 个 致命 的 弱点 : 我 们 应 该 允许 nw 有 多 少 个 可 能 的 值 ? (用 
散 列 法 的 术语 ， 应 该 有 多 少 桶 ?) 我 们 可 以 简单 地 决定 ， 例 如 有 101 个 可 能 的 散 列 值 ， 使 











用 模 运算 的 散 列 函数 ， 即 
hash(7) 
return x % 101 
不 幸 的 是 ， 如 果 有 多 于 101 个 节点 愿意 存储 对 象 ， 那 么 我 们 就 不 可 能 利用 到 所 有 节点 ， 另 
一 方面 ， 如 果 我 们 选择 的 模 大 于 最 大 可 能 节点 数目 ,那么 工 的 某 些 值 将 散 列 到 一 个 不 存在 
的 节点 的 地 址 。 这 也 是 将 散 列 函数 转换 返回 值 作为 一 个 实际 IP 地 址 时 不 可 小 遍 的 问题 。 
为 了 解决 这 个 问题 ， 结 构 化 的 对 等 网 使 用 一 | 
种 称 为 一 致 散 列 法 (consistent hashing) 的 算法 ， i 0 
它 可 以 在 一 个 大 的 ID 空间 上 均匀 地 散 列 一 组 对 象 ra N 
= OBA. 9-25 ATL 128 y 入 
的 ID 空间 ， 其 中 我 们 使 用 算法 把 对 象 
hash(object_name)— objid | 
ata | 
hash(IP_addr)—nodeid \ | 
放置 在 这 个 圆圈 上 。 由 于 128 位 的 ID 空间 是 很 大 Nodeids / 
的 ， 所 以 一 个 对 象 与 一 台 计 算 机 的 IP 地 址 不 会 得 
到 同样 的 1D。 为 了 解决 这 种 问题 ， 每 个 对 象 由 在 。 (N A 
圆圈 上 最 接近 (closest) 它 的 ID 号 对 应 的 节点 维 ka 9 we 
护 。 换 句 话说， 这 里 的 做 法 是 使 用 高 质量 的 散 列 
也 数 将 节点 和 对 象 都 映射 到 同一 个 大 的 稀 玩 ID 空 
则 ， 然 后 根据 它们 各 自 标识 符 数值 的 接近 程度 将 
对 象 映射 到 节点 上 。 像 一 般 的 散 列 计算 一 样 ， 此 
方法 可 以 将 对 象 均 匀 分 布 在 节点 上 ， 但 与 一 般 散 列 计算 不 同 的 是 ， 当 一 个 节点 〈 散 列 桶 ) 
加 和 或 离开 时 ， 仅 有 少量 对 象 需要 移动 。 
现在 我 们 考虑 第 二 个 问题 : 一 个 想 要 访问 对 象 了 的 用 户 如 何 知 道 空间 中 哪个 节点 的 
ID 最 接近 工 的 1D? 一 个 可 能 的 答案 是 每 个 节点 保存 一 张 完整 的 节点 ID 与 相关 的 IP 地 址 
的 表 ， 但 这 对 于 一 个 大 型 网 络 来 说 并 不 实用 。 
另 一 种 方法 是 将 消息 路 由 到 这 个 节点 上 (route Be 
a message to this node)! 这 正 是 结构 化 对 等 网 ff i di 
所 使 用 的 方法 。 换 句 话说 ， 如 果 我 们 以 一 种 聪 / Ja 
明 的 方法 构建 覆盖 一 一 与 我 们 需要 聪明 地 为 节 / 42131 
点 的 路 由 表 选 择 表 项 是 一 样 的 一 -那么 我 们 就 | 
可 以 通过 简单 地 路 由 到 一 个 节点 而 发 现 它 ， 有 | | 
时 也 将 此 方法 称 为 分 布 式 散 列 表 (distributed 
hash table，DHT)， 因 为 从 概念 上 讲 ， 散 列表 最 7 
分 布 在 网 络 中 的 所 有 节点 上 。 e Fi 
图 9-26 展示 一 个 简单 的 28 比特 的 ID 空间 65a1 fee, e 
会 发 生 什 么 。 为 了 使 讨论 尽量 具体 ， 我 们 考虑 “中 e 
名 为 Pastry 的 特殊 对 等 网 所 使 用 的 方法 ， 其 他 图 9-26 通过 对 等 覆盖 网 络 
系统 以 相似 的 方式 工作 。( 更 多 的 例子 可 以 参见 中 的 路 由 来 定位 对 象 


图 9-25 节点 和 对 象 都 映射 〈 散 列 ) 到 ID 
空间 ， 对 象 由 空间 中 最 近 的 节点 来 维护 
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“扩展 阅读 ”介绍 的 文章 。) 
假设 你 在 ID 为 65alfc (16 进 制 ) 的 节点 上 ， 而且 你 想 要 定位 ID 为 dd6alc WHE. 
你 发 现 你 的 ID 与 对 象 的 ID 没有 任何 共同 之 处 ， 但 是 你 知道 一 个 至 少 共 享 前 组 d 的 节点 
那个 节点 在 128 位 的 ID 空间 中 比 你 更 接近 对 象 ， 所 以 你 将 消息 转发 给 它 。 (我 们 不 给 出 所 
转发 的 消息 格式 ,但 你 可 以 把 它 想象 成 “定位 对 象 d46ale”.) 假设 节点 dl13da3 知道 另 一 
个 与 对 象 共 享 更 长 前 缀 的 节点 ， 它 就 继续 转发 消息 。 这 个 过 程 一 直 继 续 ， 直 到 到 达 一 个 不 
知道 更 近 节 点 的 节点 为 止 ， 根据 定义 ， 这 个 节点 正 是 存储 对 象 的 节点 。 记 住 ， 随 着 我 们 在 
“ID 空间 ”的 逻辑 移动 ， 消 息 实 际 上 是 通过 底层 的 因特网 从 一 个 节点 转发 到 另 一 个 节点 。 
每 个 节点 维护 一 个 路 由 表 (下 面 有 更 多 解释 ) 和 一 小 组 数字 更 大 或 更 小 的 节点 ID 对 
应 的 IP 地 址 。 这 称 为 节点 的 叶 集 (leaf set)， 它 的 意义 在 于 一 旦 消息 被 路 由 到 同一 叶 集 中 
的 任 一 节点 时 ， 此 节点 可 以 直接 转发 消息 到 最 终 目 的 地 。 从 另 一 个 角度 说 ， 即 使 存在 多 个 
与 对 象 ID 共享 最 长 前 级 的 节点 ， 叶 集 也 能 正确 而 有 效 地 将 消息 传递 到 数字 上 最 接近 它 的 
节点 。 此 外 ， 因 为 叶 集 中 的 任何 节点 都 可 以 路 由 消息 ， 如 同 同一 集合 中 的 任何 其 他 节点 一 
样 ， 所 以 使 路 由 选择 更 健壮 。 这 样 ， 如 果 一 个 节点 不 能 进一步 路 由 一 条 消息 ,那么 叶 集 中 
的 其 他 邻居 也 许 能 。 总 之 ， 路 由 过 程 定 义 如 下 : 
Route(D) 
if D 在 我 的 叶 集 范围 内 
转发 到 叶 集 中 数字 上 最 接近 的 节点 
else 
令 1= 共 享 前 级 的 长 度 
Ad = D 的 地 址 中 第 /位 数字 的 什 
if RouteTab[/,d 存 在 
转发 到 RouteTab[/.d] 
else 
转发 到 至 少 具 有 共享 前 级 长 度 且 数字 上 更 接近 的 已 知 节点 
路 由 表 RouteTab 是 一 个 二 维 数组 。 对 于 ID 中 的 每 个 十 六 进 制 数字 (在 128 位 的 ID 
中 有 32 个 这 样 的 数字 ) 有 一 行 ， 对 于 每 个 十 六 进 制 值 (显然 有 16 个 这 样 的 值 ) 有 一 列 。 
i 行 中 的 每 一 项 和 这 个 节点 共享 长 度 为 i 的 前 级 ， 并 且 在 这 一 行 中 ，j 列 中 的 项 在 第 i 十 1 
个 位 置 有 十 六 进 制 值 7。 图 9-27 显示 了 节点 65alfcx 的 示例 路 由 表 的 前 三 行 ， 其 中 x 表示 
一 个 未 指定 的 后 级 。 该 图 显示 了 表 中 每 一 项 所 匹配 的 ID 前 级 。 图 中 没有 显示 这 个 表 项 的 
实际 值 一 一 路 由 到 的 下 一 个 节点 的 IP 地 址 。 
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KI 9-27 ID W 65alfex 的 节点 的 示例 路 由 表 





向 覆盖 增加 一 个 节点 就 像 路 由 “定位 对 象 消息 ”到 对 象 一 样 ， 新 节点 必须 知道 至 少 一 
个 现 有 成 员 。 它 要 求 这 个 成 员 将 “增加 节点 消息 ”路 由 到 最 接近 加 入 节点 ID 的 节点 ， 如 
图 9-28 所 示 。 通 过 这 个 路 由 过 程 ， 新 节点 可 以 知道 其 他 共享 前 组 的 节点 ， 并 开始 填写 路 
由 表 。 随 着 时 间 的 推移 ， 更 多 的 节点 加 入 到 覆盖 中 ， 现 有 节点 也 可 以 选择 是 否 在 自己 的 路 
由 表 中 加 入 这 些 节 点 的 信息 。 当 新 节点 增加 一 个 比 现 有 节点 当前 表 中 前 级 更 长 的 前 级 时 ， 
现 有 节点 才 做 这 个 选择 。 叶 集中 的 邻居 节点 也 相互 交换 路 由 表 ， 这 意味 着 随 着 时 间 的 推 
移 ， 路 由 信息 将 遍布 窗 盖 网 络 。 


addnode(d46alc) 





图 9-28 向 网 络 增加 一 个 节点 


你 可 能 已 经 注意 到 ， 尽 管 结构 化 覆盖 对 定位 一 个 给 定 对 象 时 所 需 的 路 由 跳 数 给 出 概率 
范围 一 一 Pastry 中 的 跳 数 被 限定 为 logis N， 其 中 N 是 覆盖 上 的 节点 数 每 一 跳 都 可 能 
引入 潜在 的 延迟 。 这 是 因为 每 个 中 间 节 点 可 能 位 于 因特网 的 一 个 随机 位 置 上 。 (在 最 坏 的 
情况 下 ， 每 个 节点 在 不 同 的 大 陆 上 !) 事实 上 ,在 世界 范围 内 使 用 上 述 算法 的 覆盖 网 上 ， 
每 一 跳 的 预计 延迟 是 因特网 上 任 一 对 节点 间 延 迟 的 平均 值 ! 幸运 的 是 实际 中 能 做 得 更 好 。 
其 思想 是 在 选择 每 一 个 路 由 表 项 时 ， 在 具有 适合 于 该 项 的 一 个 ID 前 级 的 所 有 节点 中 ， 选 
择 在 底层 物理 网 中 较 近 的 节点 。 这 样 做 所 得 到 的 端 到 端 路 由 延迟 已 被 证 明 可 能 小 于 源 和 目 
的 之 间 的 延迟 。 

最 后 ， 目 前 的 讨论 集中 在 对 等 网 上 定位 对 象 的 一 般 问 题 。 给 定 这 样 一 个 路 由 选择 架构 
可 以 建立 不 同 的 服务 ， 例 如 一 个 使 用 文件 名 作为 对 象 名 的 文件 共享 服务 。 为 了 定位 文件 ， 
首先 计算 名 字 的 散 列 值 ， 得 到 对 应 的 对 象 ID， 然 后 将 一 条 “定位 对 象 消 息 ” 路 由 到 这 个 
ID。 为 了 提高 可 用 性 ， 系 统 也 可 以 把 它 复 制 到 多 个 节点 上 。 将 多 个 备份 存储 在 给 定 文件 通 
常 被 路 由 到 的 节点 的 叶 集 上 ， 就 是 这 样 做 的 一 种 方法 。 记 住 ， 即 使 这 些 节点 在 ID 空间 中 
是 邻居 ， 它 们 也 可 能 在 物理 上 散布 于 因特网 上 。 因 此 ， 虽然 一 座 城市 断 电 可 能 会 在 物理 上 
关闭 传统 文件 系统 中 的 文件 备份 ， 但 在 对 等 网 上 发 生 这 样 的 故障 时 ， 就 可 能 会 保全 一 个 或 
多 个 备份 。 

除 文件 共享 以 外 的 其 他 服务 也 能 建立 在 分 布 式 散 列 表 之 上 ， 例 如 多 播 应 用 不 是 从 网 格 


构建 和 维护 的 开销 。 
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3. BitTorrent 

BitTorrent Æ Bram Cohen 设计 的 对 等 文件 共享 协议 。 它 是 以 复制 文件 或 复制 被 称 为 
H (piece) 的 文件 段 为 基础 的 。 通常 ， 任 何 一 个 片 都 能 从 多 个 对 等 方 下 载 ， 即 使 只 有 一 个 
对 等 方 有 整个 文件 。BitTorrent 的 主要 优点 是 避免 了 因 一 个 文件 只 有 一 个 源 而 引起 的 瓶 
颈 。 考虑 到 一 些 计算 机 通过 因特网 链 路 提供 文件 服务 时 速率 有 限 ， 特 别 是 大 多 数 宽带 网 络 
的 非 对 称 性 造成 速率 极 低 ， 此 时 BitTorrent 的 优势 更 加 有 用 。BitTorrent 的 精华 在 于 复制 
是 下 载 过 程 的 一 个 自然 的 副产品 : 当 一 个 对 等 方 下 载 一 个 特定 片 时 ， 它 就 成 为 该 片 的 另 一 
个 源 。 下 载 该 文件 的 片 的 对 等 方 越 多 ， 片 的 复制 就 越 多 ,从 而 均衡 地 分 配 负 载 。 片 的 下 载 
是 以 随机 顺序 进行 的 ， 从 而 避免 所 有 对 等 方 都 发 现 缺 少 同一 个 片 集合 的 情况 。 

每 一 个 文件 都 通过 它 自己 的 独立 BitTorrent 网 络 被 共享 ， 该 网 络 被 称 为 群 (swarm). 
(一 个 群 可 能 潜在 地 共享 一 组 文件 ， 但 我 们 为 了 简单 只 描述 一 个 文件 的 情况 .) 一 个 典型 群 
的 生命 周期 如 下 。 群 初始 时 是 一 个 有 文件 完整 备份 的 对 等 方 。 一 个 想 下 载 该 文件 的 节点 加 
入 该 群 ， 称 为 第 二 个 成 员 ， 并 开始 从 
第 一 个 对 等 方 下 载 文 件 的 片 。 在 下 载 
过 程 中 ， 它 成 为 已 下 载 片 的 男 一 个 源 ， 
即使 此 时 它 还 没有 下 载 完 整个 文件 。 
(事实 上 ， 对 等 方 在 完成 下 载 后 立即 离 
开 群 的 现象 很 常见 ， 虽然 鼓励 它们 待 
得 再 长 一 些 .。) 其 他 节点 加 入 该 群 并 开 
始 从 多 个 对 等 方 下 载 片 ， 而 不 只 是 第 
一 个 对 等 方 ( 见 图 9-29). 

如 果 该 文件 保持 很 高 的 需求 量 ， 图 9-29 BitTorrent 群 中 的 一 个 对 等 方 从 其 他 可 能 





那么 一 群 新 对 等 方 会 蔡 代 那些 离开 的 还 没有 整个 文件 的 对 等 方 下 载 文件 
对 等 方 ， 因 此 群 会 永远 保持 活力 ;否则 ， 群 会 萎缩 到 只 包括 第 一 个 对 等 方 的 情况 ， 直 到 有 
新 对 等 方 加 入 该 群 。 


既然 我 们 已 经 总 览 了 BitTorrent， 我 们 可 以 问 一 下 请 求 是 如 何 被 路 由 到 拥有 给 定 片 的 
对 等 方 的 。 为 了 提出 请 求 ， 一 个 想 要 成 为 下 载 者 的 节点 必须 先 加 入 群 。 它 要 从 下 载 一 个 包 
含 文件 和 和 群 的 维护 信息 的 . torrent 文件 开始 。. torrent 文件 很 容易 复制 ， 它 一 般 是 从 Web 
服务 器 下 载 的 ， 并 通过 跟踪 网 页 中 的 链接 来 发 现 。 它 包含 : 

。 目标 文件 的 大 小 。 

。 片 的 大 小 。 

。 为 每 个 片 预 计算 的 SHA-1 散 列 值 COL 8. 1.4 节 )。 

. 群 跟踪 器 (tracker) 的 URL, 

跟踪 器 是 一 个 跟踪 群 的 当前 成 员 关 系 的 服务 器 。 我 们 会 在 后 面 看 到 可 以 将 BitTorrent 
扩展 成 不 需要 这 个 集中 点 ， 因 为 它 的 存在 会 引起 潜在 的 瓶颈 或 故 隐 。 

想 要 成 为 下 载 者 的 节点 通过 向 跟踪 器 发 送 一 条 包含 其 网 络 地 址 以 及 为 自己 产生 的 一 个 
随机 对 等 方 ID 的 消息 来 加 入 群 ， 成 为 一 个 对 等 方 。 该 消息 还 包括 . torrent 文件 主要 部 分 
的 SHA-1 散 列 值 ， 该 值 被 用 作 群 的 ID. 

将 新 对 等 方 称 为 P。 跟 踪 器 用 一 个 包含 部 分 对 等 方 ID 和 网 络 地 址 的 列表 来 回应 P，P 
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与 其 中 的 一 些 对 等 方 建立 TCP 连接 。 注 意 , P 只 是 与 群 的 一 个 子 集 直接 相连 ， 虽 然 它 可 
能 决定 联系 更 多 的 对 等 方 ， 甚 至 向 跟踪 器 请 求 更 多 的 对 等 方 。 为 了 在 建立 了 TCP 连接 之 
后 与 特定 对 等 方 建立 BitTorrent 连接 .P 发 送 自 己 的 ID 和 和 群 ID， 而 对 等 方 会 以 自己 的 ID 
和 群 ID 回应 。 如 果 群 ID 不 匹配 或 者 回应 对 等 方 的 IP 不 是 P 所 期 望 的 ID， 该 连接 就 
终止 。 

所 得 到 的 BitTorrent 连接 是 对 称 的 : 每 一 端 都 能 从 另 一 端 下 载 文 件 。 每 一 端 开 始 都 会 
给 对 方 发 送 一 个 位 图 来 报告 自己 拥有 的 片 ， 因 此 每 一 个 对 等 方 都 知道 对 方 的 最 初 状态 。 每 
当下 载 者 D 下 载 完 一 个 片 时 ， 它 就 向 与 它 直 接 相 连 的 对 等 方 发 送 一 条 标识 该 片 的 消息 ， 这 
样 那些 对 等 方 就 能 更 新 有 关 D 的 状态 的 内 部 表示 。 这 就 是 对 下 载 请 求 如 何 被 路 由 到 拥有 该 
片 的 对 等 方 这 个 问题 的 最 终 答 案 ， 因 为 它 意味 着 每 个 Sa AT a RA E BETE 
拥有 该 片 。 如 果 D 需要 一 个 在 所 有 连接 中 都 不 存在 的 片 ， 那么 它 会 连接 到 更 多 的 或 不 同 的 
对 等 方 ( 它 能 从 跟踪 器 得 到 更 多 的 对 等 方 )， 或 者 先 处 理 其 他 片 并 希望 它 的 一 些 连 接 能 够 
从 它们 的 连接 得 到 那个 片 

如 何 将 对 象 一 在 本 例 中 是 是 片 一 一 映射 到 对 等 方 节点 ? 当然 ， 每 个 对 等 方 最 终 得 到 所 
有 片 、 因 此 该 问题 实际 上 是 在 Fe 所 有 片 以 前 的 某 个 给 定时 间 ， 它 拥有 哪些 片 ， 或 
者 也 可 以 等 价 描述 为 对 等 方 下 载 片 的 顺序 。 答 案 是 它们 以 随机 顺序 下 载 片 ， 以 防止 它们 拥 
有 任何 其 他 对 等 方 的 片 的 严格 的 子 集 或 超 集 。 

目前 所 描述 的 BitTorrent 使 用 一 个 集中 的 跟踪 器 ， 它 会 成 为 群 的 故障 点 ， 并 最 终 可 能 
成 为 性 能 瓶 贷 。 同 时 ， 提 供 跟 踪 器 对 于 想 通 过 BitTorrent 提供 文件 的 人 来 说 是 一 件 烦人 的 
事 。 新 版 本 的 BitTorrent 还 支持 使 用 基于 DHT 实现 的 无 跟踪 器 群 。 具 有 无 跟踪 器 能 力 的 
BitTorrent 客户 端 软 件 不 但 要 实现 一 个 BitTorrent 对 等 方 ， 还 要 实现 一 个 我 们 称 为 对 等 方 
探测 器 (peer finder， 相 应 的 BitTorrent 术语 就 是 一 个 简单 的 节点 ) 的 部 分 ， 用 于 帮助 对 
等 方 发 现 其 他 对 等 方 。 

对 等 方 探 结构 成 它们 自己 的 窗 盖 网 络 ， 用 它们 自己 的 协议 在 UDP 上 实现 一 个 
DHTI。 另 外 ， 对 等 方 探测 器 网 络 包 含 相关 对 等 方 属于 不 同 群 的 对 等 方 探测 器 。 换 句 话说 ， 
每 个 群 形成 了 BitTorrent 对 等 方 的 不 同 网 络 ， 而 对 等 方 探测 器 网 络 跨越 多 个 群 。 

对 等 方 探测 器 随机 产生 月 己 的 探测 器 ID， 与 群 ID 的 长 度 相 同 (160 位 ) 。 每 个 探测 器 
维护 一 个 适度 的 表 ， 其 中 包含 具有 与 自己 的 ID 接近 的 主要 探测 器 (和 它们 的 相关 对 等 
方 )， 再 加 上 一 些 ID 较 远 的 探测 费 。 下 面 的 算法 确保 了 具有 与 给 定 群 ID 接近 的 探测 器 很 
可 能 知道 来 自 该 群 的 对 等 方 ， 这 个 算法 同时 提供 了 一 种 查询 方法 。 当 探测 器 下 需要 找到 来 
自 特定 群 的 对 等 方 时 ， 它 就 向 表 中 具有 与 群 ID 接近 的 探测 器 发 送 一 个 请 求 。 如 果 所 联系 
的 探测 絮 知 道 来 自 该 群 的 任何 对 等 方 ， 它 就 以 对 等 方 的 联系 信息 作为 回应 。 否 则 ， 它 以 表 
中 接近 该 群 的 探测 器 的 联系 信息 作为 回应 ， 这 样 下 就 能 以 迭代 方式 查询 那些 探测 器 。 

搜索 完成 后 ， 因 为 posal MU ae HT FORE A E KII R E AA KE A 2 


EAE RIAR, 实际 结果 是 一 个 特定 群 的 对 等 方 进入 与 该 群 接近 的 探测 器 的 表 中 。 
上 述 方案 假设 1 已 经 是 探测 器 网 络 的 一 部 分 ， 也 就 是 说 它 已 经 知道 如 何 与 其 他 探测 器 


联系 。 这 种 假设 对 于 以 前 运行 的 探测 器 安装 是 正确 的 ， 因 为 它们 会 保存 其 他 探测 器 的 信 
息 ， 甚 至 在 执行 过 程 中 也 会 保存 。 如 果 群 使 用 跟踪 器 ， 它 的 对 等 方 能 够 告诉 它们 的 探测 器 
关于 其 他 探测 器 的 信息 〈 反 转 对 等 方 和 探测 器 的 角色 )， 央 为 BitTorrent 对 等 协议 扩展 后 
能 够 交换 探测 器 联系 信息 。 但 是 一 个 新 安装 的 探测 器 如 何 发 现 其 他 探测 器 ?用 于 无 跟踪 器 
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FEH . torrent 文件 包含 一 个 或 多 个 探测 器 的 联系 信息 ， 而 不 是 跟踪 器 的 URL. 以 便 适 应 
那 种 情况 。 

BitTorrent 的 一 个 非 同 寻常 的 方面 是 它 正面 解决 公平 问题 或 好 “网 络 公 民 ” 问 题 。 协 
议 通 常 依赖 于 每 一 个 用 户 的 良好 行为 但 并 不 能 强制 。 例 如 ， 一 个 肆 无 忌 习 的 以 太 网 对 等 方 
使 用 一 种 比 指数 回 退 算法 更 贪 禁 的 回 退 算法 来 得 到 更 好 的 性 能 ， 或 者 一 个 砍 无 忌 悦 的 TCP 
对 等 方 通过 不 参与 拥塞 控制 来 得 到 更 好 的 性 能 ， 

BitTorrent 所 依赖 的 良好 行为 是 对 等 方 为 其 他 对 等 方 上 传 片 。 因 为 典型 的 Bit Torrent 
只 是 想 尽快 下 载 文件 ， 因 此 实现 一 个 试图 下 载 所 有 片 而 只 上 传 尽 量 少 的 片 的 对 等 方 一 一 这 
是 一 个 坏 对 等 方 一 一 是 很 有 诱惑 力 的 。 为 了 阻止 坏 行为 ，BitTorrent 协议 包含 了 一 种 机 
制 ， 允 许 对 等 方 互相 奖励 或 惩罚 。 如 果 一 个 对 等 方 因为 没有 很 好 地 为 男 一 个 对 等 方 上 传 片 
而 造成 行为 不 当 ， 第 二 个 对 等 方 可 以 阻塞 (choke)〉 这 个 坏 对 等 方 ， 它 可 以 决定 至 少 暂 时 
不 向 这 个 坏 对 等 方 上 传 片 ， 并 发 送 一 条 消息 告诉 它 。 还 有 一 种 消息 类 型 用 于 告诉 一 个 对 等 
方 它 已 经 被 解 阻塞 了 。 阻 塞 机 制 也 被 对 等 方 用 来 限制 活动 BitTorrent 连接 的 数量 ， 以便 保 
持 良 好 的 TCP 性 能 。 有 很 多 可 能 的 阻塞 算法 .而 设计 一 个 好 的 算法 是 一 种 艺术 。 


9.4.3 内 容 分 发 网 络 

我 们 已 经 看 到 了 运行 在 TCP 上 的 HTTP 是 怎样 让 Web 浏览 器 从 Web 服务 器 上 获得 
网 页 的 。 然 而 ， 任 何 无 休止 地 等 待 一 个 网 页 返回 的 人 都 知道 这 样 的 系统 绝 非 完美 。 考 虑 到 
目前 因特网 的 主干 建立 在 OC-192 (10Gbps) 链 路 上 ， 出现 这 种 情况 的 原因 并 不 明显 . 普 
遍 的 共识 是 当 你 下 载 网 页 时 ， 系 统 中 存在 四 个 潜在 的 瓶颈 : 

。 第 一 英里 : 因特网 中 可 能 有 高 容量 链 路 ， 但 当 你 通过 56kbps 的 调制 解 调 器 或 性 能 


很 差 的 3G 无 线 链 路 连接 时 ， 它 不 能 帮 你 更 快 地 下 载 一 个 网 页 。 

。 最 后 一 英里 : 将 服务 器 与 因特网 相连 的 链 路 可 能 央 请 求 太 多 而 超载 ， 虽 然 链 路 的 
带宽 很 高 。 

。 服务 器 本 身 : 服务 器 具有 有 限 的 资源 (CPU、 内 存 、 磁 盘 带 宽 等 )， 会 因为 过 多 的 


。 对 等 点 : 少数 共同 实现 因特网 主干 的 ISP 可 能 在 其 内 部 有 高 带宽 管道 ， 但 是 没有 
什么 推动 力 使 它们 对 其 对 等 点 提供 高 容量 连接 。 如 果 你 连接 到 USP A 而 服务 器 连 
接 到 ISP B, 那么 你 请 求 的 页 面 可 能 会 在 A 和 B 相 互 对 等 的 点 被 丢弃 。 

要 解决 第 一 个 问题 ， 除 了 你 之 外 别人 做 不 了 什么 。 但 利用 备份 技术 有 可 能 处 理 其 他 问 
题 。 做 这 件 事 的 系统 通常 称 为 内 容 分 发 网 络 (Content Distribution Network, CDN), Ak- 
amai 可 能 是 最 著名 的 CDN. 

CDN 的 思想 是 在 地 理 上 分 布 一 组 服务 器 代理 (server surrogate) 来 缓存 那些 通常 在 
一 组 后 端 服务 器 (backend server) 上 维护 的 网 页 。 于 是 在 大 型 新 闻 事 件 发 生 时 ， 不必 让 
几 百 万 人 为 了 连接 www. cnn. com 而 无 休止 地 等 待 一 一 这 种 情形 称 为 突 发 聚集 (flash 
crowd) 一 一 把 这 样 的 负载 分 布 到 多 台 服 务 器 上 是 有 可 能 的 。 此 外 ， 不必 遍 历 多 个 ISP A 
BIA www. cnn. com。 如 果 这 些 代 理 服 务 器 分 散在 所 有 主干 网 ISP 上 ， 那么 就 有 可 能 到 达 
其 中 一 台 服 务 器 而 不 需 经 过 对 等 点 。 显 然 对 于 一 个 想 要 为 其 网 页 提供 更 高 效 访问 的 网 站 ， 
在 因特网 上 维护 数 以 千 计 的 代理 服务 器 的 代价 太 昂 贵 了 。 商 用 CDN 为 很 多 网 站 提供 这 项 
服务 ， 从 而 使 这 个 代价 由 很 多 客户 分 担 。 
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尽管 我 们 把 它们 称 为 代理 服务 器 ， 事实 上 ， 把 它们 看 作 是 高 速 缓存 也 是 正确 的 。 如 果 
没有 客户 所 请 求 的 页 面 ， 它们 会 向 后 端 服务 嚣 请求。 然而 在 实践 中 ,后 端 服务 融 提 前 把 它 
们 的 数据 复制 给 代理 ， 而 不 是 等 代理 在 需要 时 请 求 。 同 样 ， 只 有 与 动态 内 容 相 反 的 静态 网 
页 才 分 布 到 代理 上 。 用 户 需 要 到 后 端 服务 器 上 获取 所 有 频繁 变化 的 内 容 (例如 体育 比分 和 
股票 报价 ) 或 是 由 某 种 计算 结果 给 出 的 内 容 (例如 一 条 数据 库 查询 )。 

拥有 地 理 上 分 布 的 一 个 庞大 的 服务 器 集合 并 不 能 完全 解决 问题 。 为 了 完整 起 见 ，CDN 
还 需 提供 一 组 能 够 把 客户 请 求 转发 给 最 合适 的 服务 如 的 重 定向 器 ey 如 图 9- 30 
所 示 。 重 定向 器 的 主要 目标 是 为 每 个 请 求 选择 能 为 客户 提供 最 短 响 应 时 间 (response 
time) 的 服务 器 ， 其 次 是 让 整个 系统 在 底层 硬件 〈 网 络 链 路 和 网 页 服务 器 ) 能 够 支持 的 情 
况 下 每 秒 钟 处 理 尽 可 能 多 的 请 求 。 在 一 段 给 定时 间 内 所 能 满足 的 请 求 的 平均 数量 一 一 称 为 
系统 吞吐 量 (system throughput) 一 一 是 系统 负载 很 重 时 的 主要 问题 ， 例 如 ， 当 突 发 聚集 
访问 少数 网 页 或 分 布 式 拒绝 服务 (DDoS) 攻击 者 瞄准 某 个 网 站 时 ， 就 像 2000 年 2 月 
CNN, Yahoo 和 其 他 几 个 著名 的 网 站 遇 到 的 情况 一 样 。 





后 端 
服务 器 


地 理 上 分 布 的 
代理 服务 器 
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图 9-30 一 个 内 容 分 发 网 络 (CDN) 的 组 成 部 








CDN 根据 多 个 因素 来 决定 如 何 分 发 客户 请 求 。 例 如 ， 为 了 减少 响应 时 间 ， 重 定向 器 
可 能 根据 网 络 接近 程度 (network proximity) 来 选择 服务 器 。 相 反 ， 为 了 提高 系统 的 总 知 
叶 量 ， 和 硕 望 在 一 组 服务 顺 上 均匀 地 平衡 (balance) 负载 。 如 果 分 发 机 制 把 位 置 (locality) 
作为 考虑 因素 就 能 提高 吞吐 量 并 缩短 响应 时 间 ， 也 就 是 说 ， 选 择 一 个 在 它 的 高 速 缓存 中 可 
能 已 包含 被 请 求 网 页 的 服务 融 。CDN 应 采用 的 因素 组 合 是 公开 争论 的 问题 。 本 节 考 虑 一 
些 可 能 性 。 

1. 机 制 

在 目前 的 描述 中 ， 重 定向 上 涡 只 是 一 个 抽象 的 功能 ， 尽 管 这 听 起 来 像 要 求 路 由 器 做 的 
事 ， 因 为 从 逻辑 上 讲 它 像 路 由 需 转 发 分 组 一 样 转发 请 求 消息 。 事 实 上 ， 有 多 种 机 制 可 以 用 
来 实现 重 定向 。 注意， 为 方便 讨论 ,我们 假设 每 个 重 定向 器 都 5 知道 所 有 可 达 服 务 器 的 地 
hs (从 这 里 开始 我 们 丢弃 “代理 ”这 个 词 而 只 称 其 为 一 组 服务 器 .) 在 实践 中 ， 服 务 需 会 
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出 现 和 消失 ， 可 以 通过 某 种 形式 的 带 外 通信 使 这 些 信 息 保 持 最 新 ， 

首先 ， 可 以 通过 调整 DNS 给 客户 返回 不 同 服务 融 地 址 的 方法 实现 重 定 向 。， 例 如 ， 当 
客户 要 求解 析 域 名 www. cnn. com 时 ，DNS 服务 需 会 返回 保存 CNN 的 Web 网 页 的 已 知县 
有 最 轻 负 和 载 的 服务 器 IP 地 址 。 男 一 种 方法 是 ， 对 于 给 定 的 一 组 服务 器 ，DNS 服务 器 可 能 
只 是 以 轮转 的 方式 返回 地 址 。 注 意 基 于 DNS 的 重 定 向 机 制 的 粒度 通常 是 网 站 级 (例如 
cnn.com) 而 不 是 某 个 特定 的 URL (例如 http://www. cnn. com/ 2002/ world/europe/06 
21/william. birthday/index. html)。 然 而 ， 当 返回 一 个 舱 入 式 链接 时 ,服务器 会 重 写 
URL， 这 样 就 有 效 地 将 客户 指向 最 适合 那个 特定 对 象 的 服务 器 。 

商用 CDN 本 质 上 结合 使 用 URL 重 写 和 基于 DNS 的 重 定向 。 出 于 可 扩展 性 原因 ， 高 
级 DNS 服务 器 先 指 向 一 个 能 返回 实际 服务 器 地 址 的 区 域 级 DNS 服务 器 。 为 了 对 变化 做 出 
快速 响应 ，DNS 服务 器 把 它们 返回 的 资源 记录 的 TTL 改 成 一 段 很 短 的 时 间 ， 比 如 20 fb. 
这 样 做 是 必要 的 ， 使 得 客户 不 再 缓存 结果 ， 并 因此 不 能 返回 DNS 服务 器 查找 最 新 的 URL 
到 服务 器 的 映射 。 

另 一 种 可 能 性 是 使 用 HTTP 的 重 定向 特性 : 客户 向 服务 器 发 一 条 请 求 消息 ， 服务器 
响应 一 个 为 获得 网 页 的 客户 所 应 联系 的 新 的 〈 更 好 的 ) 服务 器 。 不 幸 的 是 ,基于 服务 器 的 
重 定向 会 导致 在 因特网 上 的 额外 往返 时 间 ， 更 糟糕 的 是 .服务 器 容易 因为 重 定向 任务 而 使 
本 身 超载 。 然 而 ， 如 果 客 户 附近 有 一 个 节点 例如 一 个 本 地 Web 代理 知道 哪些 服 
务 器 可 用 ， 它 就 可 以 拦截 请 求 消息 并 指示 客户 从 合适 的 服务 器 请 求 网 页 . 在 这 种 情况 下 . 
要 么 重 定向 系统 需要 处 在 所 有 离开 网 站 的 请 求 都 会 通过 的 咽喉 要 道 ， 要 么 客户 将 不 得 不 通 
过 显 式 定位 代理 (就 像 一 个 典型 的 非 透 明代 理 那 样 ) 的 方式 协作 . 

到 了 这 里 ， 你 可 能 在 想 CDN 到 底 和 蓝 羡 网 络 有 什么 关系 。 尽管 把 CDN 看 成 是 覆盖 有 
一 点 夸大 其 词 ， 但 它们 的 确 有 一 个 非常 重要 的 共同 特征 。 像 覆盖 节点 那样 ， 一 个 基于 代理 
的 重 定向 器 会 做 出 应 用 级 路 由 选择 决定 。 它 不 会 根据 地 址 以 及 它 对 网 络 拓扑 的 了 了 解 来 转发 
分 组 ， 它 会 根据 URL 以 及 它 对 某 组 服务 器 的 方位 和 负载 的 了 解 来 转发 HTTP 请 求 。 现今 
的 因特网 体系 结构 并 不 直接 支持 重 定向 一 一 “直接 ”的 意思 是 指 客户 把 HTTP 请 求 发 给 
重 定向 句 ， 由 重 定向 器 转发 给 目标 一 一 所 以 通常 让 重 定 向 大 返回 合适 的 目标 地 址 并 让 客户 
自行 联系 服务 器 来 间接 实现 重 定向 。 

2. 策略 

现在 我 们 来 考虑 一 些 重 定 向 需 转 发 请 求 时 可 能 用 到 的 则 型 策略 。 实 际 上 ,我 们 已 经 提 
出 了 一 个 简单 的 策略 一 一 轮转 策略 。 一 个 类 似 的 方案 是 简单 地 在 可 用 服务 需 中 随机 选择 一 
台 服 务 器 。 两 个 方法 都 能 够 很 好 地 把 负载 均匀 散布 到 CDN 上 ,但 它们 并 没有 很 好 地 缩减 
客户 感受 到 的 响应 时 间 。 

很 明显 ， 这 两 个 方案 都 没有 把 网 络 接近 程度 考虑 在 内 . 同时 ,它们 还 忽略 了 位 置 。 
也 就 是 说 ， 对 同一 URL 的 请 求 被 转发 给 不 同 服务 器 ， 使 得 由 所 选 服务 天内 存 中 的 缓存 
来 提供 网 页 的 可 能 性 变 小 了 。 这 使 服务 器 不 得 不 从 磁盘 甚至 后 端 服 务 器 上 取 回 网 页 。 一 
组 分 布 在 各 地 的 重 定向 器 如 何在 不 经 过 全 局 协调 的 情况 下 把 对 同一 网 页 的 请 求 发 往 同 一 
服务 器 (或 一 小 组 服务 器 )?” 答案 出 奇 的 简单 : 所 有 重 定向 器 都 使 用 某 种 形式 的 散 列 法 
把 URL 确定 地 映射 到 一 个 小 的 取 值 范围 。 这 个 方法 的 主要 好 处 是 不 需要 为 了 协调 操作 
而 进行 任何 重 定向 器 之 间 的 通信 ， 不 管 哪个 重 定向 属 收 到 URL， 散 列 过 程 都 能 产生 相 








同 的 输出 。 

那么 什么 是 好 的 散 列 方案 ”经 典 的 取 模 Cmodulo) 散 列 方案 一 一 用 散 列 法 处 理 每 个 
URL 时 ， 以 服务 器 数目 作 模 数 一 一 不 适合 这 种 环境 。 这 是 因为 如 果 服 务 需 数目 改变 ， 
模 运算 的 结果 会 使 得 越 来 越 少 的 网 页 能 保持 分 配 到 相同 服务 器 。 虽 然 我 们 不 希望 服务 器 集 
合 频繁 变化 ， 但 在 集合 中 添加 新 服务 器 将 引起 人 们 不 愿 看 到 的 大 规模 重新 分 配 。 

另 一 个 办 法 是 使 用 9. 4. 2 节 中 讨论 过 的 一 致 散 列 «(consistent hashing) 算法 。 县 体 来 
讲 ， 每 个 重 定向 器 先 把 所 有 服务 器 散 列 变换 到 单位 圆 中 ， 然 后 对 于 每 个 到 达 的 URL, E 
定向 器 把 URL 也 散 列 变换 成 单位 圆 上 的 一 个 值 ， 最 后 URL 被 指定 给 圆 上 离 它 的 散 列 值 最 
近 的 服务 器 。 如 果 这 个 方案 中 的 一 个 节点 出 现 故障 ， 其 负载 将 被 转移 给 它 的 邻居 〈 在 单位 
圆 上 )。 这 样 添加 或 移 走 一 台 服 务 器 只 会 使 请 求 分 配 在 局 部 发 生变 化 。 注 意 ， 与 对 等 网 的 
情况 不 同 的 是 ， 对 等 网 上 一 条 消息 从 一 个 节点 路 由 至 另 一 节点 为 的 是 找到 其 ID 离 目 标 最 
近 的 服务 器 ， 每 个 重 定向 器 知道 这 组 服务 器 是 如 何 映射 到 单位 圆 上 的 ， 所 以 它们 可 以 各 自 
独立 地 选择 “最 近 ” 的 服务 需 。 

这 种 策略 很 容易 通过 扩展 以 考虑 服务 器 负载 。 假 设 重 定 向 器 知道 每 个 可 用 服务 器 当前 
的 负载 ， 这 些 信息 不 一 定 是 最 新 的 ， 但 我 们 可 以 想象 重 定向 器 只 对 前 几 秒 内 它 向 某 个 服务 
器 转发 请 求 的 次 数 进行 计数 ， 并 把 这 个 计数 作为 该 服务 器 当前 负载 的 估计 值 。 当 收 到 一 个 
URL 时 ， 重 定向 器 散 列 变换 这 个 URL 加 上 每 个 可 用 的 服务 器 ， 并 将 结果 值 排序 。 这 个 排 
序列 表 有 效 地 定义 了 重 定向 器 所 考虑 的 可 用 服务 器 的 顺序 。 于 是 重 定向 器 顺序 访问 列表 直 
到 它 找到 负载 低 于 某 一 阔 值 的 服务 器 。 与 普通 的 一 致 散 列 法 相 比 ， 这 种 方法 的 好 处 在 于 每 
个 URL 都 有 不 同 的 服务 器 顺序 与 之 对 应 。 所 以 如 果 一 台 服 务 器 发 生 故 障 ， 它 的 负载 将 被 
均匀 地 分 布 到 其 他 机 句 上 。 这 种 方法 是 高 速 缓存 阵列 路 由 协议 (Cache Array Routing Pro- 
tocol, CARP) 的 基础 ， 以 下 是 其 伪 代 码 表示 : 


SelectServer(URL,S) 

for 服务 器 集合 S 中 的 每 台 服 务 器 $S， 
weight, =hash(URL,address(s, )) 

排序 weight 

for 递减 序列 weight, 中 的 每 台 服 务 器 y， 
if Load(s,)<threshold then 

return s, 
return weight 最 高 的 服务 器 


随 着 负载 的 增加 ， 这 个 方案 从 只 使 用 列表 上 的 第 一 台 服务 器 变 为 将 请 求 分 散 到 多 台 服 
务 吉 上 。 一 些 通常 由 “繁忙 ”服务 器 处 理 的 网 页 也 将 由 相对 不 太 忙 的 服务 器 处 理 。 因 为 这 
个 过 程 的 依据 是 服务 器 负载 的 聚集 而 不 是 单个 网 页 的 受 欢 迎 程度 ， 保 存 某 些 受 欢迎 网 页 的 
服务 器 可 能 找到 更 多 分 担 其 负载 的 服务 器 而 不 是 共同 保存 不 受 欢迎 网 页 的 服务 器 。 在 此 过 
程 中 ,一 些 不 受 欢迎 的 网 页 会 在 系统 中 被 复制 ， 这 仅仅 是 因为 它们 恰好 主要 被 存储 在 繁忙 
的 服务 吕 上 。 同 时 ， 如 果 一 些 网 页 变 得 非常 受 欢 迎 ， 可 以 想象 ， 所 有 系统 中 的 服务 器 都 可 
能 有 责任 提供 它们 。 

最 后 ， 可 以 用 至 少 两 种 不 同 的 方法 把 网 络 接近 程度 引入 等 式 中 。 第 一 种 方法 是 通过 监 
视 服务 器 响应 请 求 的 时 间 长 短 并 把 这 个 测量 值 作为 “服务 器 负载 ”参数 运用 到 前 面 的 算法 
中 ， 这 使 得 服务 器 负载 和 网 络 接近 程度 之 间 的 区 别 变 得 模糊 。 这 种 策略 倾向 于 选择 邻近 的 
或 负载 轻 的 服务 器 而 不 是 远 处 的 或 负载 重 的 服务 器 。 第 二 种 方法 是 在 较 早 的 阶段 限制 候选 
的 服务 器 集合 使 其 只 包括 附近 的 服务 器 ， 这 样 就 使 接近 程度 成 为 决定 因素 之 一 。 更 难 的 问 
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题 是 如 何在 可 用 的 很 多 服务 器 中 确定 哪个 离 得 较 近 。 一 种 方法 是 只 选择 与 客户 在 相同 ISP 
上 的 可 用 服务 器 。 一 种 稍微 复杂 一 点 的 方法 是 查看 由 BGP 生成 的 自治 系统 图 ， 并 且 只 选 
择 那些 从 客户 出 发 ， 在 一 定 跳 数 内 可 达 的 服务 器 作为 候选 者 。 在 网 络 接近 程度 和 服务 器 组 
存 位 置 之 间 寻找 平衡 是 正在 研究 的 课题 。 


9.5 小 结 


我 们 已 经 看 到 了 两 种 应 用 最 广泛 的 基于 客户 /服务 器 的 应 用 协议 : 用 于 交换 电子 邮件 
的 SMTP， 用 于 在 万 维 网 中 漫游 的 HTTP。 我 们 看 到 了 应 用 到 应 用 通信 如 何 蝶 动 诸如 
SOAP 和 REST 等 新 的 协议 开发 框架 的 发 明 。 我 们 还 研究 了 会 话 控制 协议 ， 如 SIP 和 
H. 323， 它 们 用 于 控制 多 媒体 应 用 ， 如 IP 语音 。 除 了 这 些 应 用 协议 ,我 们 还 看 到 了 一 些 
关键 的 支撑 协议 : 用 于 域名 系统 的 DNS 协议 ， 用 于 为 网 络 管理 查询 远程 节点 的 SNMP fh 
议 。 最 后 ， 我 们 看 到 了 新 兴 的 应 用 一 一 包括 覆盖 、 对 等 网 和 内 容 分 发 网 络 一 一 以 创新 的 方 
式 融 合 应 用 处 理 和 分 组 转发 。 

应 用 协议 也 是 很 奇怪 的 。 在 许多 方面 ， 传 统 的 客户 /服务 器 应 用 像 是 男 一 层 传输 协议 ， 
不 同 的 是 它们 有 内 嵌 的 特定 应 用 的 知识 。 你 可 以 认为 它们 不 过 是 特殊 化 的 传输 协议 ， 并 且 
这 些 传输 协议 层 层 琶 加 直至 产生 应 用 所 需要 的 准确 服务 。 类 似 地 ,覆盖 和 对 等 网 协议 可 以 
看 作 是 提供 一 种 可 选 的 路 由 体系 结构 ,但 同样 也 是 为 一 个 特定 应 用 的 需求 而 定制 的 。 我们 
从 这 个 观察 结论 所 得 到 的 实际 经 验 是 设计 应 用 层 协 议 确实 与 设计 核心 网 络 协 议 没 有 什么 区 


方法 一 一 理解 功能 及 组 件 是 如 何 交 互 来 构建 一 个 完整 系统 的 一 一 在 设计 应 用 时 应 该 与 在 设 
计 联 网 其 他 方面 时 用 得 一 样 多 。 i 


接 下 来 会 发 生 什么 : 新 的 网 络 体 系 结构 


在 应 用 协议 领域 正确 指出 一 个 特定 的 开放 性 问题 是 困难 的 ， 因 为 每 天 都 出 现 新 的 应 
用 ， 故 而 整个 领域 都 是 开放 的 ， 并 且 这 些 应 用 的 网 络 需求 是 与 应 用 相关 的 。 对 网 络 设计 者 
的 真正 挑战 是 清楚 随 网 络 变化 的 应 用 的 需求 是 什么 ， 以 及 这 些 变化 如 何 促 使 我 们 开发 传输 
协议 ， 以 及 在 网 络 路 由 器 中 加 入 功能 。 

开发 新 的 传输 协议 是 一 个 相对 容易 处 理 的 问题 。 你 也 许 不 能 让 IETF 认可 你 的 传输 协 
议 等 同 于 TCP 或 UDP， 但 没有 什么 能 阻止 你 设计 出 世界 上 最 好 的 、 与 新 的 运行 在 UDP 
之 上 的 端 到 端 协议 相 结合 的 多 媒体 应 用 ， 就 像 RTP 所 做 的 那样 。 

另 一 方面 ， 将 特定 应 用 的 知识 放 人 网 络 中 〈 放 人 路 由 器 中 ) 是 一 个 更 困难 的 问题 。 这 
是 因为 要 使 一 个 特定 应 用 生效 ， 需 要 将 所 有 新 的 网 络 服务 或 功能 装 和 许多 〈 如 果 不 是 全 
部 ) 因特网 路 由 器 中 。 柳 盖 网 络 提供 一 种 无 需 全 部 (或 者 甚至 任 一 个 ) 路 由 器 的 协作 就 可 
将 新 的 功能 引入 到 网 络 中 的 方法 ， 但 从 长 远 看 ， 我 们 可 以 期 望 改 变 底 层 网 络 体系 结构 以 适 
应 这 些 覆 盖 。 我 们 通过 RON 看 到 了 这 个 问题 一 一 RON 和 BGP 路 由 选择 如 何 相互 交 
互 一 一 并 且 随 着 覆盖 网 络 的 日 趋 盛 行 我们 预料 它 会 成 为 一 个 普遍 的 问题 。 

一 种 可 能 性 是 不 会 出 现 另 一 种 固定 的 〈fixed) 体系 结构 ， 而 下 一 代 网 络 体系 结构 将 会 
有 特别 温 的 适应 性 。 在 这 样 的 前 提 下 ， 并 不 是 定义 一 个 仅 传送 数据 分 组 的 体系 结构 ， 网 络 
体系 结构 可 能 允许 分 组 不 但 携带 数据 ， 也 将 携带 代码 〈 或 可 能 是 指向 代码 的 指针 ) 以 便 告 
诉 路 由 器 如 何 处 理 分 组 。 这 样 的 网 络 引 发 许多 问题 ， 而 不 仅仅 是 在 应 用 程序 能 有 效 地 对 路 
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由 器 编程 的 情况 下 如 何 加 强 网 络 世界 安 全 的 问题 。 另 一 种 可 能 性 是 网 络 的 虚拟 化 成 为 规 
范 ， 一 些 “ 片 ”提供 健壮 易 懂 且 经 过 全 面 调试 的 服务 ， 而 其 他 的 则 用 于 实验 功能 ， 这 也 是 
研究 团体 正在 追求 的 方向 。 


扩展 阅读 
我 们 的 第 一 篇 文章 提供 了 有 关 万 维 网 早期 设计 和 实现 的 有 趣 的 综述 ， 这 是 由 万 维 网 的 
发 明 者 在 万 维 网 席卷 全 球 前 写 的 。Mockapetris 和 Dunlap 对 DNS 的 发 展 做 出 了 很 好 的 描 
R. A CDN 和 对 等 网 络 在 近 几 年 中 得 到 了 充分 研究 ， 最 后 六 篇 研究 论文 对 了 解 这 些 问 
题 提供 一 个 很 好 的 起 点 。 
Berners-Lee, T., R.Caillia, A. Luotonen, H. Nielsen, and A. Secret. The World- 
Wide Web. Communications of the ACM 37 (8), pages 76-82, August 1994. 
Mockapetris, P. , and K. Dunlap. Development of the Domain Name System. Proceedings 
of the SIGCOMM'’88 Symposium, pages 123-133, August 1988. 
Karger, D. et al. Consistent hashing and random trees; Distributed caching proto- 
cols for relieving hot spots on the World Wide Web. Proceedings of the ACM Sym- 
posium on Theory of Computing, Pages 654-663, May 1997. 
e Chu, Y., S. Rao, and H. Zhang. A case for End System Multicast. Proceedings 
of the ACM SIGMETRICS’00 Conference, pages 1-12, June 2000. 
e Andersen, D. et al. Resilient overlay networks. Proceedings of the 18th ACM Symposium 
on Operating Systems Principles (SOSP), pages 131-145, October 2001. 


。 Rowstron, A., and P. Druschel. Storage management and caching in PAST, a large 


scale persistent peer-to-peer storage utility. Proceedings of the 18th ACM Symposium on 
Operating Systems Principles (SOSP), pages 188-201, October 2001. 

e Stoica, I. et al. Chord; A scalable peer-to-peer lookup service for Internet applica- 
tions. Proceedings of the ACM SIGCOMM Con ference, pages 149-160, August 2001. 

。 Ratnasamy, S. et al. A scalable content-addressable network. Proceedings of ACM 
SIGCOMM'01, pages 161-172, August 2001. 

SMTP 最 早 在 RFC821 [Pos82] PM, 448R, RFC 822 是 RFC 822 [Cro82]。 它 
们 曾经 是 IETF 术语， 分别 被 [Kle01] 和 [Res01] BEF. MIME 在 一 系列 RFC 中 定义 ， 
最 新 的 版 本 在 RFC 2045 [FB96] 中 定义 ， 还 有 几 个 附加 RFC 补充 细节 。 

HTTP 的 1.0 版 本 在 RFC 1945 [BLFF96] 中 说 明 ， 最 新 版 本 是 1.1, 在 RFC 2616 
[FGM+99] 中 定义 。Mogul [Mog95] 解释 了 HTTP 1.1 的 持久 连接 。 有 很 多 关于 Web 
性 能 (尤其 是 Web 缓存 ) 的 文章 。 其 中 的 一 个 好 例子 是 Danzig 关于 Web 通信 量 及 高 速 组 
存 有 效 性 方面 的 论文 LDan98]。Roy Fielding 的 博士 论文 [Fie00] 是 REST 的 最 佳 参考 。 

SIP 在 RFC 3261 [SCJ+02] 中 定义 ， 其 中 包含 了 很 有 帮助 的 指南 部 分 以 及 该 协议 的 
详细 规范 ， 就 像 MIME 一 样 ， 有 很 多 其 他 的 RFC 扩展 了 SIP 协议 。 

有 大 量 讨 论 命名 以 及 资源 发 现 〈 首 先 找 出 存在 什么 资源 ) 问题 的 文章 。 对 命名 的 一 般 
人 研究 可 在 Terry LTer86]、Comer 和 Peterson [CP89]、Birrell 4 [BLNS82]、Saltzer 
[Sal78], Shoch [Sho78] 和 Watson [Wat81] 中 找到 ; 基于 属性 的 (描述 ) 命名 系统 在 
Peterson | Pet88] 和 Bowman 等 [BPY90] 中 描述 ; 资源 发 现 是 Bowman 等 [BDMS94] 
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的 主题 。 
网 络 管理 是 IETF 全 力 投 入 的 广泛 而 重要 的 领域 。 有 100 多 个 RFC 文档 描述 SNMP 
Al MIB 的 各 种 问题 。 然 而 ， 两 篇 关键 的 参考 文献 是 RFC 2578 [MPS99]  ( 它 定 义 了 


SNMP 版 本 2 (SNMPv2) 的 管理 信息 格式 ) 和 RFC 3416 ( 它 定义 了 SNMPv2 的 协议 操 
作 )。 与 SNMP/MIB 相关 的 许多 其 他 RFC 定义 对 MIB 变量 核心 集 的 扩展 ， 例 如 那些 针对 
特定 网 络 技术 或 特定 厂商 产品 的 变量 。Perkins 等 [PM97] 提供 了 对 SNMP 和 MIB 的 一 
个 很 好 的 介绍 。 

美国 国家 科学 研究 委员 会 关于 因特网 僵化 的 报告 可 以 在 [NRC01] PREL Ab, fil 
用 有 覆盖 网 络 引 入 创新 技术 的 建议 是 由 Peterson, Anderson, Culler 和 Roscoe [PACR02] 
提出 的 。Savage、Hoffman、Snell 和 Anderson [SGH+99] 提出 支配 BGP 路 由 的 最 早 的 
例子 。 使 用 DNS 均衡 服务 器 负载 的 思想 参见 RFC1794 [Bri95]。 关 于 Web 高 速 缓存 与 重 
复 服务 器 的 问题 在 Rabinovich 和 Spatscheck 的 书 [RSo2] 中 有 详尽 的 论述 。Wang、Pai 
和 Peterson [WPP02] 研究 了 重 定向 器 的 设计 。 

最 后 ， 我 们 推荐 下 面 的 实时 参考 来 帮助 读者 跟踪 万 维 网 的 飞速 发 展 以 及 有 关 Web 服 
务 的 丰富 信息 。 

。 http://www. w3. org: 万 维 网 联盟 。 


习题 

1. 讨论 你 将 如 何 重 写 SMTP 或 HTTP 以 利用 一 个 启发 式 的 通用 请 求 /响应 协议 。 能 将 一 个 类 似 的 持久 连 
接 从 应 用 层 协议 移 至 这 样 的 传输 层 协议 中 吗 ? Stile ety et 

2. 大 部 分 Telnet 客户 能 连接 到 端口 25 (SMTP 端口 ) 而 不 是 Telnet 端口 。 使 用 这 样 一 个 工具 ， 连 接 到 
SMTP 服务 器 并 给 你 自己 〈 或 获得 许可 的 其 他 人 ) 发 送 某 个 伪造 的 电子 邮件 。 eee 

息 不 真实 的 证 据 。 

3. 为 了 让 SMTP 和 一 个 像 sendmail 那样 的 邮件 后 台 处 理 程序 提供 一 些 措施 以 提防 上 道 习 题 所 说 的 邮件 伪 
造 者 ， 可 以 使 用 (或 增加 ) SMTP 的 什么 特性 ? 

4. 找 出 SMTP 主机 如 何 处 理 来 自 另 一 方 的 未 知 命令 ， 特 别 是 这 种 机 制 如 何 允 许 协议 的 改进 (如 “扩展 的 
SMTP”) 。 你 可 以 读 RFC， 也 可 以 像 习 题 2 那样 连接 一 个 SMTP 服务 器 并 测试 它 对 不 存在 命令 的 
响应 。 

. 正如 书 中 描述 的 ，SMTP 包含 几 条 小 消息 的 交换 。 在 大 多 数 情况 下 ， 服 务 器 的 响应 不 影响 客户 的 后 续 
发 送 。 客 户 因 而 可 以 实现 命令 管道 (command pipelining): 在 单一 的 消息 中 发 送 多 条 命令 。 

Ca) 对 于 哪些 SMTP 命令 ， 客 户 需 要 注意 服务 器 的 响应 ? 

(b) 假设 服务 器 用 gets O 或 等 价 的 函数 读 取 每 一 条 客户 消息 ， 它 将 读 取 一 个 串 直到 遇见 一 个 换行 符 
(LF) 为 止 。 当 它 检 测 到 客户 已 使 用 命令 管道 之 后 ， 和 震 要 做 些 什么 ? 

(c) 然而 管道 可 被 某 些 服务 器 中 断 ， 研 究 客户 怎样 协商 它 的 使 用 。 

6. 像 MIME 这 样 的 协议 所 面 对 的 中 心 问题 之 一 是 数 基 巨大 的 可 用 数据 格式 。 参考 MIME RFC 找 出 
MIME 是 怎样 处 理 新 的 或 特定 系统 的 图 像 和 文本 格式 的 。 

7. MIME 使 用 multipart/alternative 语法 来 支持 对 相同 内 容 的 多 个 表示 。 例如， 文本 能 以 text/plain, 
text/richtext 和 application/ postscript 的 形式 发 送 。 虽 然 把 本 来 的 格式 放 在 普通 文本 格式 之 前 会 使 实现 
更 容易 ， 但 为 什么 你 仍 认为 普通 文本 格式 是 首选 ? 

8. 查看 有 关 MIME 的 RFC， 找 出 base64 编码 是 如 何 处 理 anal 3 字 节 的 偶数 倍 的 二 进 制 数据 的 。 

9. POP3 邮局 协议 只 允许 客户 使 用 口令 认证 方法 获取 电子 邮件 。 通常， 客户 发 送 电子 邮件 就 是 简单 地 将 
其 送 到 服务 器 ， 然 后 期 望 邮件 被 转发 
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(a) 解释 为 什么 邮件 服务 器 经 常 不 再 允许 来 自任 意 客户 的 此 类 转发 。 
(b) 提出 一 个 SMTP 选项 来 认证 远程 客户 。 
Co) 找 出 可 用 于 解决 这 一 问题 的 现 有 方法 。 


10. 在 HTTP 1.0 版 本 中 ， 一 个 服务 器 通过 关闭 连接 来 标记 传输 的 结束 。 从 TCP 层 的 角度 解释 为 什么 这 


— 
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样 做 会 引起 服务 器 的 问题 。 找 出 HTTP1. 1 版 本 中 怎样 避免 这 一 问题 。 一 个 通用 的 请 求 /响应 协议 会 
怎样 解决 这 个 问题 ? 


. 找 出 如 何 配置 HTTP 服务 器 以 便 消 除 404 not found 消息 ， 取 而 代 之 的 是 返回 一 个 默认 的 〈 并 且 和 希望 


是 更 友善 的 ) 消息 。 判断 这 样 的 特性 是 否 是 协议 的 一 部 分 或 实现 的 一 部 分 ， 或 者 在 技术 上 协议 是 人 允 
许 这 样 做 的 。( 有 关 apache HTTP 服务 器 的 文档 可 在 www. apache. org 上 找到 。) 


. 为 什么 HTTP GET 命令 


GET http: www. cs. princeton. edu/index. html] HTTP/1. 1 


含有 所 连接 的 服务 器 的 名 字 ? 服务 器 还 不 知道 它 的 名 字 吗 ? 像 习 题 2 那样 使 用 Telnet 连接 到 一 台 
HTTP 服务 器 的 端口 80， 并 且 找 出 如 果 省 略 主机 名 后 会 发 生 什 么 事情 ? 


. HTTP 在 连接 的 服务 器 端 启 动 一 个 close() ARO RAE YATE TCP 状态 FIN-WAIT-2 等 待 客户 关 


闭 另 一 端 。TCP 协议 中 的 什么 机 制 能 帮助 HTTP 服务 器 处 理 不 合作 的 或 实现 很 糟糕 的 不 在 本 端 关闭 
连接 的 客户 。 如 果 可 能 的 话 ， 找 出 这 种 机 制 的 编程 接口 ， 并 指明 HTTP 服务 器 可 以 怎样 使 用 它 。 


- 假设 一 个 非常 大 的 Web 站 点 需要 一 种 机 制 ， 能 使 客户 按照 适当 的 度量 来 访问 多 个 HTTP 服务 器 中 


“最 接近 ”的 HTTP 服务 器 。 

(a) 讨论 在 HTTP 内 开发 这 种 机 制 。 

b) 讨论 在 DNS 内 开发 这 种 机 制 。 

比较 两 种 方法 。 两 种 方法 都 能 在 不 升级 浏览 器 的 前 提 下 工作 吗 ? 


5. 像 FTP 和 SMTP 这 样 的 应 用 协议 是 从 零 开 始 设计 的 ， 并 且 它 们 看 上 去 工作 得 相当 好 。 那 么 需要 Web 


服务 协议 框架 的 商家 到 商家 以 及 企业 应 用 集成 协议 工作 得 怎么 样 呢 ? 


ij. 选择 一 个 有 等 同 REST 和 SOAP 接口 的 Web 服务 ， 就 像 Amazon. com 提供 的 那些 。 比 较 等 同 的 操作 


是 如 何以 两 种 风格 被 实现 的 。 


- 得 到 某 些 SOAP 风格 的 Web 服务 的 WSDL， 并 选择 一 个 操作 。 对 实现 该 操作 的 消息 ， 辨 识 各 个 


字段 . 


: 假设 一 个 大 型 会 议 中 某 些 接收 者 能 够 以 比 其 他 人 高 得 多 的 带宽 接收 数据 。 可 以 通过 什么 实现 来 解决 


这 个 问题 ? (提示 : 同时 考虑 会 话 公 告 协 议 (Session Announcement Protocol, SAP) 和 使 用 第 三 方 混 
频带 的 可 能 性 .) 


.怎样 编码 两 个 分 组 内 的 音频 (或 视频 ) 数据 ， 使 得 当 其 中 一 个 分 组 丢失 时 ， 分 辩 率 只 是 降低 到 只 有 


- 半 带 宽 时 的 分 辨 率 ?” 解释 如 果 使 用 JPEG 类 型 的 编码 ， 为 什么 这 样 做 要 困难 得 多 。 


20. 解释 统一 资源 定位 符 CURL) 和 统一 资源 标识 符 (URI) 之 间 的 关系 。 给 出 一 个 URI 不 是 URL 的 


例子 。 


- 找 出 DNS MX 记录 除了 提供 邮件 服务 器 的 别名 之 外 ， 还 提供 哪些 其 他 特性 ， 毕 竟 服 务 器 的 别名 也 可 


由 DNS CNAME 记录 提供 。MX 记录 用 于 支持 电子 邮件 , 一 个 类 似 的 Web 记录 可 用 于 支持 
HTTP Wy? 

ARP 和 DNS 都 依赖 高 速 缓存 ;， ARP 高 速 缓存 记录 生存 期 一 般 是 10 分钟， 而 DNS 高 速 缓存 记录 生存 
期 是 几 天 。 解释 为 什么 会 存在 这 种 差别 。DNS 高 速 缓存 记录 的 生存 期 太 长 会 产生 什么 不 希望 的 后 果 ? 


3. JPv6 通过 允许 硬件 地 址 作为 IPv6 地 址 的 一 部 分 来 简化 ARP。 这 如 何 使 DNS 的 工作 复杂 化 ? 这 将 怎 


样 影响 你 找到 本 地 DNS 服务 器。 


4. DNS 服务 器 也 允许 反 向 查询 ,给 出 一 个 JP 地 址 128.112.169.4， 它 被 着 转换 成 一 个 文本 串 


4. 169. 112.128.in _ addr. arpa， 并 且 使 用 DNS 的 PTR 记录 查找 (PTR 的 域 层 次 结构 类 似 于 地 址 的 


25. 


26. 


27。 


28. 


29. 


30. 


31. 


32. 


33. 


34. 


35. 


36. 


37. 


426 RIF 





域 层次 结构 )。 假 设 你 想 要 根据 主机 名 鉴别 分 组 的 发 送 方 ， 并 确信 源 IP Sk. 解释 下 列 情 况 
下 的 不 安全 性 : 将 源 IP 地 址 转换 到 上 述 主机 名 ， 然 后 将 名 字 与 可 信任 主机 的 给 定 列表 进行 对 比 
(提示 : 你 信任 谁 的 DNS 服务 器 ?) 

一 个 域名 (如 cs. princeton. edu) 和 一 个 IP FRAS (如 192. 12. 69.0) 之 间 有 什么 关系 ”必须 用 相同 
的 名 字 服 务 器 识别 一 个 子 网 中 的 所 有 主机 吗 ? 像 上 一 道 习题 中 的 反 向 查询 情况 如 ? 

假设 一 台 主 机 选择 一 台 不 在 它 的 组 织 内 的 名 字 服 务 器 做 地 址 解析 。 对 在 任何 DNS 高 速 缓存 中 都 找 不 
到 的 查询 ， 与 用 本 地 名 字 服 务 器 相 比 ， 这 样 做 何 时 不 增加 总 通信 生 ? 这 样 做 何 时 会 得 到 一 个 较 高 的 
DNS 高 速 缓存 命中 率 和 较 少 的 总 通信 量 ? 

图 9-17 显示 了 名 字 服 务 器 的 分 层 结构 。 如 果 一 个 名 字 服 务 器 服务 于 多 个 区 域 ， 怎 样 表示 这 种 分 层 结 
构 ? 在 这 种 设置 下 ， 如 何 将 名 字 服 务 器 的 分 层 结构 联系 到 区 域 的 分 层 结构 ? 怎样 处 理 每 个 区 域 可 以 
有 多 个 名 字 服 务 器 的 情况 ? 


使 用 whois 工具 /服务 找 出 谁 负责 你 的 站 点 ， 至 少 是 在 InterNIC 涉及 的 范围 。 通 过 DNS 名 字 和 通过 
IP 网 络 号 查 = 你 的 站 点 ， 对 于 后 者 可 能 不 得 不 尝试 男 一 个 whois 服务 器 (如 whois-h whois. 
arin. net... )。 也 试 一 试 princeton. edu 和 cisco. com, 


erent ine i 的 Web 站点。 怎样 使 用 whois 发 现 是 否 有 这 样 的 情况 ? MRA. 
怎样 使 用 whois 发 现 第 三 方 的 身份 ? 
现存 DNS. com 分 层 结构 的 特性 之 一 是 它 非 常 “宽阔 ”。 
(a) 提出 一 个 比 .com 分 层 结构 更 加 分 层 化 的 重组 方案 ， 你 能 预料 到 这 一 提议 会 遇 到 什么 
见 吗 ? 
(b) 当 大 部 分 DNS 的 域名 含有 4 层 或 4 层 以 上 时 , 与 现 有 的 两 层 域名 相 比 结果 怎样 ? 
假设 是 另外 一 种 情况 ,我 们 抛弃 所 有 DNS 分 层 结构 ， 并 且 简 单 地 将 所 有 . com E BIR A FIGS ft: 
www. cisco. com 可 能 变 成 www. cisco， 或 可 能 就 是 cisco。 从 总 体 上 讲 ， pi 如 何 影响 到 根 名 字 服 务 
器 的 通信 量 ? 对 一 种 把 cisco 这 样 的 名 字 转 换 成 Web 服务 器 地 址 的 场景 ， E PE S ma ad f at YY? 
在 改变 IP 地 址 〈 如 Web 服务 器 的 主机 名 的 了 了 地 址 ) 时 ， 涉 及 DNS asic ii 面 的 问题 是 仆 么 ” 怎 
样 使 这 些 问 题 的 影响 最 小 ? 
采用 一 个 适当 的 DNS 查询 工具 (如 dig) 并 且 禁 止 递归 查询 特性 〈 如 用 十 norecursive)， 这 样 当 你 的 
工具 向 一 个 DNS 服务 器 发 送 一 个 询问 ， 并 且 服 务 器 不 能 根据 自己 的 记录 完全 回答 请 求 时 ， 服 务 器 回 
送 在 查询 序列 中 的 下 一 台 DNS 服务 器 ， 而 不 是 自动 转发 查询 到 下 一 台 服 务 器 ， 然后 实现 如 图 9-18 所 
示 的 手工 方式 名 字 查找 ， 用 主机 名 www. cs. princeton. edu 尝试 一 下 。 列 出 所 接触 的 每 一 台中 间 名 字 
服务 器 。 你 可 能 也 需要 指明 查询 是 针对 NS 记录 而 不 是 一 般 的 A 记录 ， 
找 出 是 否 有 一 个 可 用 的 SNMP 节点 来 回答 你 发 送 的 查询 。 如 果 找 到 了 ， 找 一 些 SNMP 工具 (如 ucd- 
snmp TRÆ) 并 且 尝 试 做 下 面 的 事情 : 
(a) 使 用 类 似 
snmpwalk nodename public system 
的 操作 获取 整个 system 组 ,也 尝试 在 上 面 的 操作 中 用 1 来 代替 system, 
(b) 使 用 多 个 SNMP GET- NEXT 操作 (如 使 用 snmpgetnext 或 等 价 的 操作 ) 手工 遍历 system 组 ， 
每 次 取出 一 条 记录 。 
使 用 前 一 道 习题 中 的 SNMP 设备 和 工具 获取 tep 组 (组 编号 是 6) 或 某 个 其 他 组 。 然 后 执行 某 种 操作 
使 一 些 组 的 计数 器 有 所 改变 ， 再 重新 获取 这 些 组 以 显示 其 变化 。 尝 试用 这 样 一 种 方法 做 这 件 事 ， 确 
保 是 你 的 行动 引起 记录 的 改变 。 
SNMP 提供 的 什么 信息 对 计划 发 起 第 5 章 习题 17 的 IP 欺骗 攻击 的 人 可 能 是 有 用 的 ? 还 有 什么 其 他 
SNMP 信息 被 认为 是 敏感 的 。 
如 何 设计 只 使 用 HTTP 302 重 定向 或 只 使 用 DNS 的 CDN 重 定向 机 制 ? 这 种 方法 有 什么 限制 ? 将 两 
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.如 果 一 个 基于 DNS 的 重 定向 机 制 想 根据 当前 负载 


种 机 制 结合 起 来 可 行 吗 ? 
言 息 选 择 一 台 合适 的 服务 器 ,那么 它 会 遇 到 什么 


= 


问题 ? 


39. 想象 一 种 情况 ， 有 多 个 CDN 希望 互相 成 为 对 等 方 (类似 于 自治 系统 在 IP 层 成 为 对 等 方 )， 以 便 将 内 


容 传送 给 大 量 的 终端 用 户 。 例 如 ，CDN A 可 能 代表 一 个 内 容 提供 商 集 合 来 提供 内 容 ， 而 CDN B 可 能 
代表 另 一 个 内 容 提 供 商 集合 ，A 和 BB 都 有 一 个 物理 禾 盖 区 使 得 它们 能 够 将 内 容 传 送 给 不 同 的 终端 用 
户 集合 。 概 述 CDN A 和 B 如 何 结合 使 用 DNS 重 定向 和 HTTP 302 重 定向 将 来 自 CDN A 的 内 容 提 供 
商 的 内 容 发 送 给 CDN B 的 终端 用 户 (或 反 过 来 )。 

想象 一 个 CDN 被 配置 成 缓存 分 层 结构 ， 终 端 用 户 从 边界 缓存 中 访问 内 容 ， 边 界 缓 存 则 在 缓存 失效 时 
从 父 缓存 获取 内 容 ， 依次 向 上 直到 根 缓存 ， 根 缓存 最 终 从 原始 服务 器 获取 内 容 。 什 么 指标 会 引起 如 
下 配置 决策 : 

(a) 向 一 个 特定 的 缓存 加 入 更 大 的 存储 量 。 

(b) 向 缓存 分 层 结构 加 入 另 一 层 。 


- 多 播 袜 盖 有 效 地 将 流 式 内 容 从 单个 源 推送 到 多 个 目的 地 ， 在 中 间 节 点 不 缓存 流 内 容 。CDN 有 效 地 从 


一 个 缓存 分 层 结构 中 拉 取 内 容 (包括 视频 )， 并 在 中 间 节 点 缓存 内 容 。 举 例 说 明 如 何 将 二 者 看 作 彼此 
的 对 偶 。 解 释 为 什么 可 以 认为 CDN 与 异步 多 播 等 价 。( 提 示 : 考虑 TiVo.) 


- 考虑 下 面 的 简化 BitTorrent 环境 。 在 回答 森 问 题 期 间 ， 有 一 个 有 2" 个 对 等 方 的 群 ， 并 且 没 有 对 等 方 


加 入 或 离开 该 群 。 对 等 方 需要 1 个 时 间 单 元 来 上 传 或 下 载 一 个 片 ， 并且 在 一 个 时 间 内 只 能 做 一 件 事 。 

开始 时 ， 有 一 个 对 等 方 有 完整 的 文件 ， 而 其 他 对 等 方 什 么 也 没有 。 

(a) 如 果 该 群 的 目标 文件 只 由 1 个 片 组 成 ,那么 所 有 对 等 方 得 到 该 文件 至 少 需 要 多 长 时 间 ? 忽略 除 
上 传 /下 载 以 外 的 其 他 时 间 。 

Cb) 设 工 是 你 对 上 一 个 问题 的 答案 。 如 果 群 的 目标 文件 由 两 个 片 组 成 ， 那 么 所 有 对 等 方 在 不 到 2x 个 
时 间 单 元 内 得 到 该 文件 是 可 能 的 吗 ? 为 什么 ? 
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4. 当 最 后 一 个 数据 比特 到 达 目 的 地 时 ， 我 们 认为 传输 完成 。 

(a) 1.5MB 王 12582 912 比特 ， 两 个 初始 RTT(160ms) 十 12 582 912/10 000 000bps( 传 输 ) 十 RTT/2( 传 
H) a~l. 458s。 

(b) ee 5MB/1KB=1 536。 对 于 上 面 的 值 ， 我 们 加 上 1 535 + RTT 的 时 间 (分 组 1 到 

和 分 组 1 536 到 达 之 间 的 RTT 个 数 )， 总 共 是 1. 458 十 122. 8= 124. 258s。 

Cc) 1 536 个 分 组 除 以 20 是 76.8， 这 将 占用 76.5 个 RTT (第 1 组 到 达 用 半 个 RTT， 加 上 第 1 组 和 第 
77 组 之 间 的 76 个 RTT)， 再 加 上 初始 的 两 个 RTT, 一共 是 6. 28s. 

(d) 我 们 在 握手 后 立即 发 送 一 个 分 组 ， 握 手 后 的 一 个 RTT 后 我 们 发 了 两 个 分 组 , n 个 RTT 之 后 ， 我 
们 已 经 发 了 1 十 2 十 4 十 … 十 2" 一 2*+1 一 1 个 分 组 。 在 n= 二 10 时 ， 我们 已 经 发 了 所 有 1 536 个 分 组 ， 
最 后 一 组 在 0.5 个 RTT 后 到 达 。 总 的 时 间 是 2 十 10. 5RTT， 即 1s。 

6. 传播 延迟 是 50X 103 m/ (2X108m/s) = 250ks。800 比特 /250ps = 3.2 Mbps。 对 于 512 字 节 的 分 组 . 

这 个 值 提高 为 16. 4Mbps。 

14. (a) 链 路 上 传播 延迟 是 (55X10) / (3X105) =184s. Ak RTT 是 368s。 

Cb) 链 路 的 延迟 带宽 积 是 184X128 103= 2.81 MB, 

(c) 拍摄 完 一 张 图 片 后 必须 马上 在 链 路 上 发 送 ， 并 且 在 任务 控制 中 心 能 解释 它 之 前 要 传播 完 。5MB 
数据 的 传输 延迟 是 41 943 040 比特 /128X 103 =328s， 因 此 所 需 的 总 时 间 是 传输 延迟 十 传播 延 
3R = 328+184=512s, 

17. (a) 对 每 一 条 链 路 ， 要 花 1Gbps/Skb=5Sys 时 间 在 链 路 上 发 送 分 组 ， 然 后 最 后 1 比特 穿 过 链 路 还 需要 
10pks。 因 此 对 只 有 一 个 交换 机 的 LAN， 交 换 机 仅 在 收 到 整个 分 组 后 ; 才 开始 转发 ， 总 的 传送 延迟 是 两 
个 传输 延迟 十 两 个 传播 延迟 二 30ps。 

(b) 对 于 3 台 交 换 机 及 4 条 链 路 ， 总 延迟 是 4 个 传输 延迟 十 4 个 传播 延迟 = 60ps. 

(c) 对 于 “直通 ”转发 ， 交 换 机 在 转发 之 前 仅 需 要 解码 前 128 位 数据 ， 这 需要 128ns， 这 个 延迟 替换 了 前 
一 答案 中 的 传输 延迟 ， 所 以 总 延迟 为 : 1 个 传输 延迟 十 3 个 直通 解码 延迟 十 4 个 传播 延迟 三 45. 384s 

27. (a) 1 920X 1 080 24 X 30=1 492 992 0001. 5Gbps。 

(b) 8X8 000=64kbps. 

(c) 260X 50= 13kbps 

(d) 24X88 200=216 8002. 1Mbps, 
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给 定 比 特 序列 的 4B/5B 编码 如 下 : 
11011 11100 10110 11011 10111 11100 11100 11101 
11011 11100 10110 11011 10111 11100 11100 11101 


ji 


比 持 110111110010110110111011111100111001110011101 


\ TERE 
CAE m iE, 
vi tpu 
fal L 4 
1 1 1 1 


piebeead rd 
Piirat 4 yey EArt 
HA F ai-ti I 
E SAI EE SS B 1 
Reena 1 


1 )} 
rad 1 } 


1 ae I 
NRZ 4 i 1 

1 1 tl ! 

1 1 } 1 
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7. 用 标记 “A ”填充 的 0 被 移 去 的 位 置 ， 当 检测 到 连续 7 个 1 时 表示 出 现 一 个 错误 (err)， 在 该 比特 序 
列 的 末端 检测 到 帧 结束 (eof)。 
01101011111 A 10100111111 ler 0110 01111110eu 
19. (a) 将 消息 1011 0010 0100 1011 附加 8 个 0， 然后 用 1 0000 0111 (28 +2? +r! +1) 去 除 。 余 数 是 
1001 0011。 我 们 将 原始 消息 附加 上 这 个 余数 一 起 发 送 ， 结 果 为 : 
1011 0010 0100 0011 1001 0011 
Cb) 将 上 述 消息 的 第 一 位 反 转 得 到 0011 0010 0100 1011 1001 0011, 用 1 0000 0111 (28 +22 +r! +1) 
去 除 ， 得 到 余数 1011 0110, 
25. 链 路 的 单程 时 延 是 100ms， 带 宽 X 往 返 延迟 大 约 是 125 分 组 /sX0.2s 或 者 25 个 分 组 。SWS 应 该 这 
BK 
(a) 如 果 RWS 二 1， 必 须 的 序号 空间 是 25 ， 因 此 需要 5 比特 。 
(b) 如 果 RWS 二 SWS， 序 号 空间 必须 覆盖 SWS 的 两 倍 ， 即 达到 50， 因 此 需要 6 比特 。 
32. 图 2 给 出 第 一 个 例子 的 时 间 线 ， 第 二 个 例子 减少 了 大 约 1 个 RTT 的 交易 时 间 。 






Timeout 


_ 3RTT 
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2. 表 1 是 累积 的 ，VCI 表 的 每 一 个 部 分 既 包含 当前 记录 也 包含 以 前 的 所 有 记录 。 注 意 , 在 (dd) 部 分 我 
们 假设 交换 机 4 端口 0 的 VCIO 不 可 重用 ( 它 在 Ca) 部 分 中 用 于 连接 H)。 这 与 通常 情况 下 的 双向 
VCI 更 加 一 致 。 
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2 0 0 1 } 
(b) 3 3 0 | 0 0 
4 Al ] 1 0 
| 1 1 1 2 0 
(c) 2 + 2 3 1 
4 2 0 3 2 
ik 1 2 3 0 
(d) 2 T 3 3 2 
4 
4 0 1 3 3 
2 0 ] 2 0 
Ce) 
3 2 0 0 1 
2 1 4 0 v4 
(f) 3 0 2 ii 0 
4 0 2 3 4 


14. 下 面 给 出 了 LAN 和 它们 的 指派 网 桥 之 间 的 映射 关系 : 
B1 dead 
B2 A, B,D 
B3 E,F,G,H 
B4 I 
B5 idle 
B6 J 
B7 C 

16. 所 有 的 网 桥 能 看 到 从 D 到 C 的 分 组 。 只 有 B3、B2 和 B4 看 到 从 C 到 D 的 分 组 。 只 有 Bl、B2、B3 看 
到 从 A 到 C 的 分 组 。 
Bl A- 接 口 : A B2- 接 口 : D (不 是 C) 
B2 Bl- 接 口 : A B3- 接 口 : C B4- 接 口 : D 
B3 C#0: C B2- 接 口 : A，D 
B4 DD 接口 : D B2- 接 口 : C (不 是 A) 

27. 由 于 1/O 总 线 速度 低 于 内 存 带宽 ， 所 以 它 是 瓶颈 。 因 为 每 个 分 组 穿 过 IO 总 线 两 次 ， 所 以 能 提供 的 
有 效 带宽 是 1 000/2Mbps。 因 此 接口 数目 是 〈500/100) 一 5。 

37. 根据 定义 ， 路 径 MTU 为 576 字 节 ， 最 大 IP 载荷 是 576—20=556 字 节 。 我 们 需要 传输 的 IP 载荷 为 
1 024+20=1044 字 节 ， 可 将 它 分 为 两 个 分 片 ， 第 一 个 分 片 的 大 小 是 552 字 节 (因为 分 片 应 该 是 8 字 
节 的 整数 倍 ， 因 此 不 能 是 556。) 第 二 个 分 片 大 小 为 1 044—552=492 F. WRAK MTU, 一 共 
需要 两 个 分 片 。 上 一 题 中 我 们 需要 三 个 分 片 。 

47. (a) 见 表 2。 
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表 2 
存储 在 节点 至 到 达 节 点 的 距离 
中 的 信息 A B C D E F 
A 0 2 co 5 
B 2 0 2 1 
fe x 2 0 2 co 3 
D 5 2 0 o | 
E ve 1 2 ce 0 3 
F = ig 3 co 3 0 
(b) W# 3。 
表 3 
存储 在 节点 至 到 达 节 点 的 距离 
中 的 信息 A B È D E F 
A 0 2 4 5 3 = 
B 2 0 2 1 1 4 
区 4 2 | 0 2 3 3 
D 5 1 2 0 co 5 
E 3 1 3 | = 0 3 
F 4 3 5 0 
(c) 见 表 4. 
表 4 
存储 在 节点 至 到 达 节 点 的 距离 
中 的 信息 A | B ç D E F 
A 0 | 2 4 5 t- 3 6 
B 2 | 0 | 2 4 1 4 
Cc 4 | 2 | 0 2 3 | 3 
D 5 4 5 5 
E 3 1 0 3 
F 6 4 3 0 














53. 图 3 是 一 个 网 络 拓扑 的 示例 : 








56. 应 用 每 一 个 子 网 拖 码 ， 如 果 相 应 的 子 网 号 与 对 应 列 匹 配 ， 那 么 在 下 一 跳 中 使 用 该 表 项 。 
Ca) 应 用 子 网 掩 码 255. 255. 254. 0， 我 们 得 到 128. 96. 170.0， 用 接口 0 作为 下 一 跳 。 
Cb) 应 用 子 网 抢 码 255. 255. 254.0, 我 们 得 到 128. 96.166.0 (下 一 跳 是 R2)。 应 用 子 网 掩 码 
255. 255. 252. 0， 我 们 得 到 128. 96. 164.0 (下 一 跳 是 R3)。 但 是 255. 255. 254.0 是 一 个 更 长 的 前 
级 ， 所 以 使 用 R2 作为 下 一 跳 。 
(c) 没有 子 网 号 匹配 ， 使 用 默认 路 由 器 RA. 


432 J MAA 





Cd) 应 用 子 网 掩 码 255. 255. 254.0， 我 们 得 到 128.96. 168.0, FEO 1 作为 下 一 跳 . 
Ce) 应 用 子 网 掩 码 255. 255. 252. 0， 我 们 得 到 128. 96. 164.0， 用 R3 作为 下 一 跳 。 
63. 见 表 5。 


表 5 








已 证 实 的 试探 性 的 
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CA, 0, =) CB, 1, BCD, 4. BY (C, 5. B) CE, 7. B) 
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15. 图 4 描述 了 源 D 和 王 的 多 播 树 。 
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10. 通知 窗口 应 该 足够 大 以 保证 管道 满载 ， 延 迟 (RTT) X 带 宽 是 140ms X 1Gbps= 10Mb=17. 5MB, 对 
于 AdvertisedWindow 字段 ， 需 要 25 比特 (22° = 33 554 432) 。 序 号 空间 在 最 大 的 段 生 存 期 内 必须 不 
回 绕 。 在 60s 内 ， 能 发 送 7. 5GB。33 比特 允许 使 用 一 个 8. 6GB 的 序号 空间 ， 并 且 在 60s 内 不 回 绕 ， 

13. (a) 232B / (5GB) = 859ms, 
(b) 在 859ms 中 1 000 次 滴答 就 是 每 859ps 一 次 ， 意 味 着 在 3.7Ms KAY 43 天 出 现 回 绕 。 

27. 初始 Deviation 王 50， 反 复 20 次 TimeOut 才 会 低 于 300.0。 见 表 6. 


表 6 


SampleRTT EstRTT 






Dev diff TimeOut 











200. 0 
200. 0 
200. 0 
200. 0 


BY Par 110.0 
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( 续 ) 
反复 次 数 SampleRTT EstRTT Dev diff TimeOut 
9 200. 0 166.7 57.8 38.0 391- 9 
10 200. 0 170. 8 54.8 33:3 390. 0 
1 200.0 174.4 51.6 29.2 380. 8 
12 ~ 200. 0 177.6 48.4 25.6 301.2 
T3 200. 0 180. 4 45.2 22.4 361. 2 
4 200. 0 182. 8 42.0 19.6 350. 8 
5 200. 0 184. 9 38.9 17.2 340.5 
6 200. 0 186.7 36. 0 15.1 330. 7 
17 200. 0 188. 3 33:2 13.3 821.1 
8 200. 0 189.7 30. 6 11.7 312.1 
9 200. 0 190. 9 28.1 10. 3 303. 3 
20 200. 0 192.0 25. 8 9.1 295.2 
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11. (a) 首先 我 们 计算 完成 时 间 F;， 由 于 对 所 有 分 组 我 们 可 以 令 A; 二 0， 所 以 在 此 不 必 担 心 时 钟 速度 ， 
F: 就 变 成 每 个 流 的 累积 大 小 ， 即 Fi 二;- 1 十 P;。 如 表 7 所 示 ， 现 在 我 们 以 Fi; 的 升序 来 发 送 ; 分 组 3， 


分 组 1, 分 组 6,， 分 组 4， 分 组 7, 分 组 2， 分 组 5， 分 组 8。 
Cb) 给 定 流 1 的 权 值 为 2， 我 们 将 每 个 F; 除 以 2， 


6， 分 组 1， 分 组 5， 分 组 7， 分 组 8， 分 组 2. 











即 Fi 二 Fi_1 十 Pi/2， 给 定 流 2 的 权 值 4， 我 们 对 每 
A F, UA, APF 1 十 Pi/4。 给 定 流 3 的 权 值 3， 我 们 对 每 个 除 以 3， 即 Fi 二 Fi 1 十 P,/3。 
再 次 使 用 没有 等 待 时 间 这 个 事实 。 如 表 8 所 示 ， 以 加 权 F 的 升序 发 送 分 组 : 分 组 3， 分 组 4， 分 组 















































表 7 表 
分 组 大 小 流 F; 

l 200 1 | 200 l 

2 200 1 400 2 1 200 
3 160 2 160 3 2 40 
4 120 2 280 4 2 70 
5 160 2 440 5 160 2 | 110 
6 210 3 210 6 210 3 | 70 
7 150 3 360 7 150 3 | 120 
8 90 3 450 8 90 3 150 




















(a) 对 一 个 给 定 流 上 第 i AP BG A PAE RF; = max{ Aj, Fii) +1 计算 估计 的 完成 时 间 已 ， 


其 中 用 于 测量 到 达 时 间 Ai 的 时 钟 以 活动 队列 的 数目 为 因子 缓慢 增加 。Ai 的 时 钟 是 全 局 的 ， 按 上 述 方 
法 计算 的 Fi 序列 对 每 个 流 来 说 是 局 部 的 。 

表 9 列 按 时 钟 顺 序列 出 所 有 事件 ， 我 们 用 分 组 所 属 的 流 和 到 达 时 间 标 识 分 组 ， 因 此 分 组 A4 是 在 
时 钟 为 4 时 列 出 到 达 的 流 A 的 分 组 ， 即 第 三 个 分 组 。 最 后 3 列 是 后 续 时 间 间 隔 中 每 个 流 的 队列 ， 包 
括 当前 正在 发 送 的 分 组 。 活 动 队列 的 数目 决定 了 A 在 下 一 行 上 的 增加 量 。 如 果 多 个 分 组 的 F; 值 相 
同 ， 那 么 它们 出 现在 同一 行 上 ; 当 FSF +] (相对 于 已 =A 十 1) 时 ，F; 值 用 斜体 表示 。 


表 9 








到 达 
Al, Bl, Cl | 2.0 
2 1, 333 C2 3.0 









F; A 队列 B 队列 C 队列 








Al Bl 


Bl 


Cl 
Cl, C2 
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( 续 ) 
时 钟 A, 到 达 Fi 发 送 A 队列 BB 队列 C 队列 
3 1. 833 A3 | 3.0 | Cl A3 | C1. C2 
4 2. 333 B4 a. 300 A3 A3 B4 C2, C4 
C4 4.0 
5 2. 666 A5 4.0 C2 A5 B4 C2, C4 
6 3.0 A6 5.0 B4 A5; AG | B4 C4, C6 
C6 5.0 | 
7 3. 333 B7 4, 333 A5 A5, AG B7 C4. C6; C7 
(ey 6.0 
8 3. 666 A8 6.0 C4 A6, A8 B7, B8 Cts Cs C7 
B8 5. 333 
9 4 A9 7.0 B7 A6, A8, A9 | B7. B8, B9 | C6. C7 
B9 6. 333 
10 4. 333 A6 A6, A8, A9 | B8. B9 C65. C7 
11 4. 666 All 8.0 C6 A8, A9, All | B8, B9 C7 
12 5 C12 7.0 B8 A8, A9, All | B8. B9 C7, C12 
13 5. 333 B13 333 A8 A8, A9, All | B9, B13 C7; C12 
14 5. 666 C7 A9, All B9. B13 7s C12 
15 6.0 B15 8. 333 B9 A9, All B9, B13. BIS | C12 
16 6. 333 A9 AQ, All B13. B15 C12 
17 6. 666 C12 All B13. B15 C12 
18 7 B13 All B13, B15 
19 7.5 All All B15 
20 8 B15 B15 
(b) 对 于 流 B 的 加 权 公 平 队 列 ， 
F,;=max({A,.F,—,}+0.5 
对 流 A AC, F, 同 前 ， 可 得 表 10, 
表 10 
mt A A 队列 B 队列 C 队列 
1 1.0 Bl Cl 
2 1. 333 Cl. C2 
3 1. 833 A3 Cis: C2 
4 2. 333 B4 B4 CZ, CA 
5 2. 666 A5 A3, A5 C2, C4 
6 3. 166 E A6 AG C2, C4. C6 
7 3. 666 A6 C4, C6, C7 
8 4.0 A8 B7, B8 C6. C7 
9 ae e J B7 A6, A8, A9 B7, B8. B9 | C6, C7 
.166 
4 10 4. 666 B8 A6, A8, A9 B8, B9 C6. C7 
11 Care AG A6, A8, A9, All | B9 C6. C7 
12 C6 A8., A9, All B9 C6, C7, C12 
13 5. 666 aie Te 6. 166 B9 A8, A9, All B9, B13 57; C12 
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(££) 
时 钟 A, 到 达 F; 发 送 A 队列 B 队列 C 队列 
14 6.0 A8 A9, All B13 C7, C12 
15 6. 333 B15 6. 833 C7 A9, All B13, B15 C12 
16 6. 666 B13 A9, All B13, B15 C12 
17 7.0 B15 All B15 C12 
18 7. 333 A9 All C12 
19 7. 833 C12 All .| Cl2 
20 8. 333 All All 


35. (a) 我 们 有 
TempP = MaxP X ( AvgLen— MinThreshold) /(MaxThreshold— MinThreshold) 
AvgLen 是 MinThreshold 和 MaxThreshold 的 平均 值 ， 这 意味 着 比例 为 1/2， 所 以 TempP = MaxP/2= p/ 
2。 现 在 我 们 有 
Piont = TempP/(1—count X TempP) =1/(x— count) 
此 处 ，z 二 2/p， 因 此 
1— Peou = (x— (countt+1))/(x—count) 





(1 一 P )X…X(1 一 P,) 
得 出 
站 
SZ] 2-2 xn æ—] 
Hp, r=2/p. 
Cb) 从 前 一 问题 的 结果 可 得 
es Gard) 
en a EY 
水 一 上 
因此 
= tD uy 
l—a 
相应 地 有 
— 2 Q-a) 
Pal) —a 


48. 在 每 时 每 刻 ， 桶 的 容量 必须 非 负 ， 对 给 定 的 桶 的 深度 D 和 令 牌 速率 +， 我 们 能 计算 t 秒 时 的 桶 容量 
v(t), IFA SR Hi] oe) 非 负 。 
v(0) =D—-5+r=D-—(5—r)>0 
v(1)=D—5—5+ 2r=D—2(5—-r)>0 
v(2) = D—5—5—-1+3r=D—(11—3r)>0 
v(3) = D—-5—5—-1+4r=D—(11—4r)>0 
04) =D—§—5-- l—6-+$r=D—17 — 50 
v5) = D—5—5—-1—6—-1+6r=D—6(3—r)>0 
FETE LPB, fo Os, oy fo) 如 下 : 
frxwM=s5-—r 
fem =26-nN=2f, MSfic) Axrss5) 
fs) =11-8rS f(r) (r= 1) 
fs) =11—-4r< filr) (rl) 
fs(r)=17—5r 
fs =63-nN<fs(r) (rÆ 
































436 7 Mk g 








首先 对 r5, AOS WA i， 这 意味 着 令 牌 速率 比 每 秒 5 分 组 要 快 ， 任 何 正 的 桶 深度 都 满足 ( 即 
D>0), X 1 过 + 过 5， 由 于 其 他 的 函数 小 于 fio(r) 和 户 (r)， 我 们 仅 需 要 考虑 它们 就 可 以 了 ， 你 很 容 
易 发 现 for) 一 方 ( 门 =3r 一 7?。 因 此 桶 的 深度 D 必须 满足 下 列 公式 
fs) =17—5r r=1,2 
D feo = 2(5—r) r= 3,4,5 








0 rid 
第 7 章 
2. 每 个 串 的 前 面 是 它 的 长 度 计 数 ， 工 资 数组 的 前 面 是 元 素 个 数 计 数 。 最 终 被 发 送 的 整数 和 ASCI 字符 序 
列 是 : 
4MARY 43777] ANUAR Y7 2002 2 90000 150000 1 
8. 
表 11 
INT 4 15 
INT | 4 | 29496729 
INT 4 =- 58993458 


10. 15 be 00000000 00000000 00000000 00001111 
15 1e 00001111 00000000 00000000 00000000 


29496729 be 00000001 11000010 00010101 10011001 
29496729 1e 10011001 00010101 11000010 00000001 


58993458 be 00000011 10000100 00101011 00110010 
58993458 1e 00110010 00101011 10000100 00000011 


术 


3DES: = DES, 使 用 了 三 个 密 钥 的 DES 版 本 ， 
有 效 增 加 了 密 钥 大 小 和 加 密 的 健壮 性 。 

3G: 第 三 代 移 动 无 线 网 ， 是 一 种 基于 码 分 多 路 复 
FA (CDMA) 的 蜂 帘 无 线 技术 。 

4B/5B: 在 光纤 分 布 数据 接口 (FDDI) 中 使 用 的 
一 种 比特 编码 方案 ， 其 中 每 4 比特 数据 作为 一 
个 5 比特 序列 传输 。 

4G: 第 四 代 无 线 技术 ,正在 逐步 普及 的 一 套用 于 
支持 比 3G 更 高 的 数据 传输 率 的 标准 。 

802.3: IEEE 以 太 网 标准 。 

802.5: IEEE 令 牌 环 网 标准 。 

802. 11: IEEE 无 线 网 络 标准 。 

802. 17: IEEE 弹性 分 组 环 标准 。 

822: RFC 822, 定义 因特网 电子 邮件 格式 。 见 
SMTP, 

AAL (ATM Adaptation Layer, ATM 适 配 层 ): 是 一 
个 配置 在 ATM 之 上 的 协议 层 。 为 数据 通信 定 
义 了 两 个 AAL: AAL3/4 和 AAL5。 每 个 协议 
层 提供 一 种 机 制 ， 在 发 送 方 将 大 分 组 分 段 为 信 
元 ， 而 在 接收 方 将 信 元 重组 为 大 分 组 。 

ABR: 可 用 的 比特 率 (Available Bit Rate), È 
是 一 种 专门 为 ATM 网 络 开发 的 基于 速率 的 拥 
塞 控制 方案 。ABR 可 以 根据 来 自 网 络 中 的 交换 
机 的 反馈 ， 允许 数据 源 增加 或 减少 所 分 配 到 的 
速率 。 对 比 CBR, UBR 和 VBR, OK iki A ik 
由 器 (Area Border Router), ， 是 处 在 一 个 链 路 状 
态 协 议 中 区 域 边界 上 的 路 由 器 。 

ACK: acknowledgment (确认 ) 的 缩写 。 由 接收 数 
据 的 接收 方 发 送 一 个 确认 ， 向 发 送 方 表 明 数 据 
传输 成 功 。 

additive increase/multiplicative decrease (加 性 增 / 
FHER): TCP 使 用 的 拥塞 窗口 策略 。TCP 以 
线性 速率 打开 拥塞 窗口 ， 但 是 当 由 于 拥塞 导致 
数据 丢失 时 就 将 窗口 减 小 一 半 。 事 实 表明 加 性 
增 / 乘 性 减 是 保持 拥塞 控制 机 制 稳 定 的 必要 
条 件 。 

AES (Advanced Encryption Standard， 高 级 加 密 标 
准 ): 用 来 取代 DES 的 密码 。 


ii 


AF (Assured Forwarding， 确 保 转 发 ): 它 是 为 区 分 
服务 提出 的 每 跳 行为 之 一 。 

ALF (Application Level Framing, WRABER): € 
是 一 种 协议 设计 原则 ， 表 明 与 通用 的 传输 协议 
相 比 ， 应 用 程序 能 更 好 地 理解 它们 的 通信 需求 。 

AMPS (Advanced Mobile Phone System， 先 进 的 移 
动 电话 系统 ): 它 是 一 种 模拟 蜂窝 电话 系统 ， 现 
在 正 被 数字 系统 〈 称 为 个 人 通信 服务 ，PCS) 所 
取代 。 

ANSI (American National Standards Institute， 美 国 
国家 标准 协会 ) : 它 是 非 官方 的 标准 化 组 织 ， 参 
与 ISO 标准 化 过 程 ， 负 责 SONET, 

API (Application Programming Interface， 应 用 程序 
编程 接口 ) : 它 是 应 用 程序 用 来 访问 网 络 子 系统 
(通常 是 传输 协议 ) 的 接口 ， 通常 特定 于 操作 系 
统 。Berkeley Unix 的 套 接 字 API 是 一 个 广泛 使 
用 的 例子 。 

area (区 域 ): 在 链 路 状态 路 由 选择 的 上 下 文中 ， 
它 是 彼此 共享 全 部 路 由 信息 的 邻接 路 由 器 集合 。 
为 提高 可 扩展 性 ， 一 个 路 由 选择 域 被 划分 成 
区 域 。 

ARP (Address Resolution Protocol， 地 址 解析 协 
N): 因特网 体系 结构 的 协议 ， 用 于 将 高 层 协议 
地 址 翻译 成 物理 硬件 地 址 ， 一 般 用 于 在 因特网 
上 将 下 地 址 映射 为 以 太 网 地 址 。 

ARPA (Advanced Research Projects Agency， 高 级 
研究 计划 署 ) : 美国 国防 部 的 研究 与 开发 组 织 之 
一 ， 负 责 资助 ARPANET 和 可 促使 TCP/IP 因 
特 网 发 展 的 研究 项 目 。 也 称 为 DARPA，D 代表 
国防 部 (Defense) 。 

ARPANET: 一 个 由 ARPA 资助 的 试验 性 广 域 分 组 
交换 网 络 ， 开 始 于 20 世纪 60 年 代 末 ， 成 为 发 
展 中 的 因特网 的 主干 网 。 

ARQ (Automatic Repeat Request， 自 动 请 求 重 发 ): 
它 是 在 不 可 靠 链 路 上 可 靠 地 发 送 分 组 的 通用 策 
略 。 如 果 发 送 方 在 一 段 特 定 的 时 间 后 没有 收 到 
分 组 的 ACEK， 它 就 假定 此 分 组 没有 到 达 目 的 地 
(或 者 到 达 了 但 是 有 比特 错误 )， 并 重 发 该 分 组 。 
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停止 -等 待 与 滑动 窗口 是 ARQ 协议 的 两 个 例子 。 
对 比 FEC, 

ASN. 1 (Abstract Syntax Notation One， 抽 象 语 法 标 
记 1): 它 与 基本 编码 规则 (BER) 一 起 作为 
OSI 体系 结构 的 一 部 分 ， 是 由 ISO 制定 的 格式 
化 表示 的 标准 。 

ATM (Asynchronous Transfer Mode， 异 步 传 输 模 
式 ): 它 是 一 种 面向 连接 的 网 络 技术 ， 使 用 小 的 
定 长 分 组 〈 称 为 信 元 ) 传输 数据 。 

ATM Forum (ATM 论坛 ): 一 个 建立 ATM 标准 的 
重要 组 织 。 。 

authentication (认证 ) : 一 种 安全 协议 ， 存 疑 的 双 
方 通过 它 相 互 证 实 它 们 符合 其 所 声称 的 身份 。 

autonomous system (AS， 自 治 系统 ): 一 组 网 络 和 
路 由 器 ， 它 们 属于 同一 机 构 ， 使 用 相同 的 域内 
路 由 协议 。 

bandwidth (带宽 ) : 一 种 对 链 路 或 连接 的 容量 的 度 
量 , 通常 以 比特 / 秒 为 单位 。 

Bellman-Ford: 一 种 距离 向 量 路 由 选择 算法 的 名 
称 ， 以 两 位 发 明 者 的 名 字 命名 。 

BER (Basic Encoding Rule， 基 本 编码 规则 ): 对 
ASN. 1 中 定义 的 数据 类 型 进行 编码 的 规则 。 

best-effort delivery (尽力 而 为 的 传送 ): 当前 因 特 
网 体系 结构 中 使 用 的 服务 模型 。 消 息 传输 是 尽 
力 而 为 的 ， 不 提供 保证 。 

BGP (Border Gateway Protocol， 边 界 网 关 协 议 ) : 
一 种 域 间 路 由 选择 协议 ， 自 治 系统 可 通过 它 交 
换 可 达 性 信息 。 最 新 版 本 是 BGP-4。 

BISYNC (Binary Synchronous Communication， 二 进 
制 同步 通信 ): 由 IBM 在 20 世纪 60 年 代 末 开发 
的 面向 字 节 的 链 路 层 协议 。 

bit stuffing (比特 填充 ): 一 种 在 比特 级 区 分 控制 序 
列 和 数据 的 技术 ,在 高 级 数据 链 路 控制 
CHDLC) 协议 中 使 用 。 

block (阻塞 ): 操作 系统 术语 ， 用 来 描述 一 个 进程 
因 等 待 某 一 事件 而 暂停 执行 的 状态 ， 如 等 待 信 
号 量 (semaphore) 状态 的 改变 。 

bluetooth (蓝牙 ): 用 于 短 距 离 连接 计算 机 、 移 动 
电话 、 外 围 设备 的 无 线 标准 。 

bridge (网 桥 ) : 一 种 将 链 路 层 的 帧 从 一 个 物理 网 络 
转发 到 另 一 个 网 络 的 设备 ， 有 时 也 称 局 域 网 交换 
机 。 对 比 中 继 器 (repeater) 和 路 由 器 (router) 。 

broadcast (广播 ): 一 种 将 一 个 分 组 传 到 一 个 特定 
网 络 或 互联 网 上 的 每 一 个 主机 的 方法 ， 可 以 用 





硬件 实现 (如 以 太 网 )， 也 可 以 用 软件 实现 (如 
IP 广播 )。 

CA (Certification Authority， 认 证 机 构 ， 也 称 为 证 
书 管理 机 构 (Certification Authority)): 一 个 负 
责 签署 安全 证 书 的 实体 ， 保 证 包含 在 证 书 中 的 
公 钥 属于 证 书 中 命名 的 实体 。 

CBC (Cipher Block Chaining， 密 码 分 组 链 ) : 一 种 
加 密 模式 ， 在 加 密 前 ， 每 个 明文 分 组 与 前 一 个 
密 文 分 组 进行 异 或 。 

CBR (Constant Bit Rate， 恒 定 比 特 率 ): 是 ATM 
中 的 一 类 服务 ， 它 们 保证 以 一 种 恒定 的 比特 率 
传输 数据 ， 从 而 模拟 一 条 专用 的 传输 链 路 。 对 
tt ABR, UBR fl VBR. 

CCITT: 现在 已 不 复 存在 的 国际 电报 电话 咨询 委员 


4 (Consultative Committee of International Tel- 


egraph and Telephone ) ， 它 是 联合 国 的 国际 电 
信和 联盟 (ITU) 的 分 会 。 该 组 织 已 经 被 ITU-T 
取代 。 

CDMA ( 码 分 多 址 ): 用 于 无 线 网 络 的 多 路 复 用 
方法 。 

CDN (内 容 分 发 网 络 ) : 分 布 在 因特网 上 的 Web 服 
务 器 代理 的 集合 ， 它 们 代替 服务 器 响应 Web 
HTTP 请 求 。 广泛 分 布 代理 服务 器 的 目的 是 一 
旦 有 某 个 代理 靠近 客户 时 ， 使 它 能 更 快 地 响应 
请 求 。 

cell (4870): 一 个 53 字 节 的 ATM 分 组 ， 能够 传 
输 最 多 48 字 节 的 数据 。 

certificate (EB): 由 一 个 实体 数字 签名 后 的 文 
档 ， 其 中 包含 另 一 个 实体 的 名 称 和 公 钥 。 用 于 
发 布 公 钥 。 人 参见 CA。 

channel (信道 ): 本 书 使 用 的 一 个 通用 的 通信 术 
语 ， 用 来 描述 一 个 迎 辑 的 进程 到 进程 的 连接 。 

checksum ( 校 验 和 ): 通常 指 对 一 个 分 组 的 所 有 或 
部 分 字 节 的 反 码 求 和 ， 由 发 送 方 计算 并 附加 在 
分 组 的 后 面 。 接 收 方 重新 计算 校 验 和 ， 并 将 它 
与 消息 中 携带 的 校 验 和 比较 。 校 验 和 用 于 检查 
分 组 中 的 差错 ， 也 用 于 验证 分 组 被 传送 到 了 正 
确 的 主机 。 术 语 校 验 和 有 了 时 (不 严密 地 ) 用 于 
通 指 检 错 码 。 

chipping code (Fr): 与 数据 流 进行 异 或 (XOR) 
操作 ， 用 于 实现 扩 频 直接 序列 技术 的 随机 比特 
序列 。 

CIDR (Classless Interdomain Routing， 无 类 域 间 路 
A): 一 种 聚合 路 由 的 方法 ， 将 一 块 连续 的 C 类 
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IP 地 址 看 作 一 个 网 络 ， 

circuit switching (电路 交换 ): 一 种 通过 网 络 交换 
数据 的 通用 策略 。 它 宕 要 在 数据 源 和 目的 地 之 
间 建 立 一 个 专用 路 径 (电路 )。 对 比分 组 交换 
(packet switching) 

client (BA): 分布 式 系统 中 的 服务 请 求 者 。 

cLNP (Connectionless Network Protocol， 无 连接 网 
络 协议 ) : ISO 中 对 应 于 因特网 IP 协议 的 协议 。 

clock recovery (时 钟 恢 复 ): 在 串 行 传输 的 数字 信 
号 中 导出 有 效 时 钟 的 过 程 ， 

concurrent logical channels (并 发 逻辑 信道 ): 在 单 
条 点 到 点 链 路 上 多 路 复 用 多 个 停止 -等 待 逻辑 信 
道 。 没 有 强制 的 传递 顺序 。 这 种 机 制 用 在 AR- 
PANET 的 IMP-IMP 协议 中 。 

congestion (拥塞 ) : 一 种 由 于 过 多 分 组 竞争 有 限 
的 资源 〈 如 路 由 器 或 交换 机 上 的 链 路 带宽 和 组 
冲 区 空间 ) 而 导致 的 状态 ， 这 种 状态 可 能 会 使 
路 由 器 (交换 机 ) 被 迫 技 奔 分 组 。 

congestion control (拥塞 控制 ): 它 是 能 够 缓和 或 
避免 拥塞 出 现 的 任何 网 络 资源 管理 策略 。 拥塞 
控制 机 制 可 以 在 网 络 中 的 路 由 器 (交换 机 ) 上 
实现 ， 也 可 以 在 网 络 边缘 的 主机 上 实现 ,或 者 
是 两 者 结合 来 实现 。 

connection (连接 ): 一 般 地 ， 在 使 用 一 个 信道 前 要 
先 建立 它 〈 如 通过 传输 一 些 设 置信 息 )。 例 如 ， 
TCP 提供 了 一 种 连接 抽象 ， 支 持 可 靠 有 序 的 字 
节 流 传递 。 面 向 连接 的 网 络 (如 ATM) 常常 被 
称 作 提供 了 一 个 虚 电 路 (virtual circuit) FHA. 

connectionless protocol (无 连接 协议 ): 一 种 不 需 
要 预先 建立 连接 就 能 发 送 数据 的 协议 。IP 就 是 
这 种 协议 的 一 个 例子 。 

context switch (上 下 文 切 换 ): 一 种 操作 系统 挂 起 
一 个 进程 的 执行 并 开始 执行 另 一 个 进程 的 操作 。 
上 下 文 切 换 包 括 保 存 前 一 个 进程 的 状态 〈 如 所 
有 寄存 器 的 内 容 ) 和 装 入 后 一 个 进程 的 状态 。 

controlled load ( 受 控 负载 ): 因特网 综合 服务 体系 
结构 中 的 一 种 服务 类 型 。 

CRC (Cyclic Redundancy Check ， 循 环 宛 余 校 验 ) : 
一 种 检 错 码 ， 由 网 络 硬件 〈 如 以 太 网 适配器 ) 
对 组 成 分 组 的 字 节 计算 得 到 ， 并 将 它 附 加 到 分 
组 上 。 循 环 匈 余 校 验 提供 比 简单 校 验 和 更 强大 
的 差错 检测 功能 . 

crossbar switch (纵横 式 交 换 机 ); 一 种 简单 的 交 
换 机 ， 其 中 每 个 输入 都 与 每 个 输出 直接 相连 ， 


而 输出 端口 负责 解决 争 用 。 

CSMA/CD (Carrier Sense Multiple Access with Col- 
lision Detect， 带 冲突 检测 的 载波 侦 听 多 路 访 
问 ): CSMA/CD 是 网 络 硬 件 的 一 种 功能 。“ 载 
波 侦 听 多 路 访问 ”的 意思 是 多 个 站 可 以 侦 听 链 
路 并 检测 链 路 何 时 处 于 使 用 或 空闲 状态 。“ 冲 突 
检测 ”是 指 如 果 两 个 或 多 个 站 同时 在 链 路 上 传 
RHE. 它们 将 会 检测 到 信号 间 的 冲突 。 以 太 
网 是 使 用 CSMA/CD 技术 的 最 广为人知 的 例子 。 

cut-through (直通 快速 转发 ): 交换 或 转发 的 一 种 
方式 , 在 一 个 分 组 完全 被 交换 节点 接收 之 前 ， 
它 就 被 传送 到 输出 接口 ， 这 样 能 减少 分 组 通过 
节点 的 时 延 。 

datagram (数据 报 ): 因特网 体系 结构 中 的 基本 传 
输 单 元 。 数 据 报 中 含有 将 它 传递 给 目的 地 所 需 
的 所 有 信息 ， 与 美国 邮政 系统 的 信件 类 似 。 数 
据 报 网 络 是 无 连接 的 。 

DCE (Distributed Computing Environment， 分 布 式 
计算 环境 ): 支持 分 布 式 计算 的 基于 RPC 的 协 
议和 标准 的 集合 ， 由 OSF 定义 。 

DDCMP (Digital Data Communication Message Pro- 
tocol， 数 字数 据 通信 报 文 协议 ): 数字 设备 公司 
的 DECnet 中 采用 的 一 种 面向 字 节 的 链 路 层 
协议 。 

DDoS (Distributed Denial of Service， 分 布 式 拒绝 
服务 ): 一 种 拒绝 服务 攻击 ， 由 一 组 节点 发 起 攻 
击 。 每 个 进行 攻击 的 节点 只 对 目标 机 投放 少量 
负载 ， 但 来 自 所 有 攻击 节点 的 总 负载 量 会 使 被 
攻击 的 目标 机 不 堪 重 负 。 

DECbit: 一 种 拥塞 控制 方案 ， 其 中 路 由 器 通过 将 
被 转发 的 分 组 首部 中 的 一 位 置 为 1， 通知 端 节点 
即将 到 来 的 拥塞 。 当 端 节点 收 到 的 该 位 置 为 1 
的 分 组 达到 一 定 百分比 时 ， 端 节点 将 降低 它们 
的 发 送 速率 。 

decryption (RE): 加 密 过 程 的 道 过 程 ， 从 被 加 密 
的 报 文中 恢复 数据 。 

delay bandwidth product (延迟 带宽 积 ): 网 络 的 
RTT 与 带宽 的 乘积 ， 给 出 网 络 能 传送 多 少数 据 
的 度量 ， 

demultiplexing (多 路 分 解 ) ， 利用 分 组 首部 包含 的 
信息 ， 将 其 导向 一 个 协议 栈 。 例 如 ，IP 用 其 首 
部 的 ProtNum 字段 决定 一 个 分 组 属于 哪个 高 层 
协议 CA TCP 或 UDP)， 而 TCP 使 用 端口 号 将 
TCP 分 组 分 解 到 正确 的 应 用 进程 。 对比 多 路 复 
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用 (multiplexing) 。 

demultiplexing key (多 路 分 解 键 ): 分 组 首部 中 能 
使 多 路 分 解 得 以 进行 的 字段 (如 IP 的 ProtNum 
FE). 

dense mode multicast (密集 模式 多 播 ): 大 多 数 路 
由 器 或 主机 需要 接收 多 播 分 组 时 使 用 的 PIM 
模式 。 

DES (Data Encryption Standard， 数 据 加 密 标准 ): 
一 种 基于 64 比特 秘密 密 钥 的 数据 加 密 算法 。 

DHCP (Dynamic Host Configuration Protocol, 动态 
主机 配置 协议 ): 一 种 当主 机 自 举 时 使 用 的 协 
议 ， 用 来 获得 各 种 网 络 信息 ， 如 IP 地 址 。 

DHT (Distributed Hash Table， 分 布 式 散 列表 ) : 
种 根据 对 象 的 名 字 把 消息 路 由 到 一 个 支持 特定 
对 象 的 计算 机 的 方法 。 该 对 象 被 散 列 到 唯一 的 
标识 符 ， 每 一 中 间 节 点 沿路 由 转发 消息 到 一 个 
与 该 ID 共享 较 大 前 组 的 节点 。DHT 通常 用 在 


对 等 网 络 中 。 
Differentiated Services (区 分 服务 ): 它 在 因特网 
上 提供 一 种 比 尽 力 服务 更 好 的 新 式 服务 体系 结 


构 ， 已 经 被 提议 用 作 综 合 服务 的 替代 选择 。 

direct sequence (直接 序列 ): 将 数据 流 与 称 为 码 
片 的 随机 比特 序列 进行 异 或 操作 的 一 种 扩 频 
RA. 

distance vector: (距离 向 量 ): 用 于 路 由 选择 的 最 
低 开 销路 径 算 法 。 每 个 节点 将 其 可 达 性 信息 及 
相关 开销 通告 给 直接 相 邻 的 节点 ， 并 用 收 到 的 
更 新 信息 构造 转发 表 。 路 由 选择 协议 RIP 使 用 
距离 向 量 算法 。 对 比 链 路 状态 Clink state). 

DMA (Direct Memory Access): 直接 存储 器 存 取 。 
一 种 将 主机 与 I/O 设备 相连 的 方法 ， 设 备 可 以 
直接 从 主机 的 内 存 读 取 数据 或 直接 将 数据 写 人 
ERMA. BU PIO, 

DNA/DECNET (Digital Network Architecture, gbi 
网 络 体系 结构 ): 一 种 基于 OSI 的 体系 结构 ， 
esheets 

DNS (Domain Name System, HARA): 因特网 
的 分 布 式 命名 系统 ， 用 来 将 主机 名 (如 
cicada. cs. princeton. edu) 解析 为 IP 地 址 (如 
192. 12. 69. 35)。DNS 是 通过 名 字 服 务 器 的 分 层 
结构 实现 的 。 i 

domain (J): 既 可 以 指 在 分 层 DNS 名 字 空 间 中 
的 环境 (如 “edu” 域 )， 也 可 以 指 为 了 分 层 路 
由 选择 而 被 看 作 单 一 实体 的 一 个 因特网 区 域 。 


后 者 相当 于 自治 系统 (autonomous system) 

DoS (拒绝 服务 ): 在 这 一 场景 中 . 一 个 攻击 节点 
问 目 标 节 点 注入 大 量 负载 ( 基 分 组 )， 它 有 效 
地 使 合法 用 户 不 能 访问 该 节点 ， 因 此 它们 被 拒 
绝 服 务 

DS3: 由 电话 公司 提供 的 一 
路 服务 ， 也 称 为 T3 

DSL (Digital Subscriber Line， 数 字 用 户 线 ): 在 双 

绞 电 话 线 上 以 每 秒 几 兆 比 特 的 速度 传输 数据 的 
-系列 标准 。 

duplicate ACK (重复 确认 ): TCP MIM HIE. E 
复 的 ACK 不 确认 任何 新 数据 。 多 次 收 到 重复 的 
ACK 会 触发 TCP 的 快速 重 传 (fast retransmit) 
机 制 。 

DVMRP (Distance Vector Multicast Routing Proto- 
col， 距 离 向 量 多 播 路 由 选择 协议 ): Mbone 中 的 
大 多 数 路 由 器 所 使 用 的 多 播 路 由 协议 。 

DWDM (Dense Wavelength Division Multiplexing, 
密集 波 分 复 用 ): 在 一 条 单一 的 物理 光纤 上 多 路 
复 用 多 个 光波 (多 个 颜色 )。 就 可 以 支持 大 量 光 
波长 的 意义 来 说 ， 这 个 技术 是 “密集 的 ”。 

ECN (Explict Congestion Notification， 显 式 拥 塞 通 
知 ): 路 由 器 通过 在 转发 的 分 组 中 设置 一 个 标志 
来 通知 端 主机 有 关 拥 塞 情 况 的 一 种 技术 。 与 
RED 这 样 的 活动 队列 管理 算法 结合 使 用 . 

EF (Expedited Forwarding， 加 速 转 发 ): 为 区 分 服 
务 提出 的 每 跳 行为 之 一 。 


种 44.7Mbps 的 传输 链 


EGP (Exterior Gateway Protocol， 外 部 网 关 协 议 ): 
因特网 早期 的 域 间 路 由 选择 协议 ， 自 治 系统 的 


外 部 网 关 〈 路 由 器 ) 用 它 与 其 他 自治 系统 交换 
路 由 选择 信息 。 已 被 BGP 取代 

encapsulation (封装 )， 一 种 由 低层 协议 完成 的 操 
作 ， 将 高 层 协议 传 下 来 的 消息 加 上 特定 协议 的 
首部 或 尾部 。 当 一 个 消息 下 传 到 协议 栈 时 . €E 
收集 一 连 串 首部 ， 最 外 层 的 首部 对 应 栈 底 的 
协议 。 

encryption (WE): 对 数据 应 用 转换 功能 的 动作 ， 
其 目的 是 希望 只 有 数据 的 接收 方 〈 在 应 用 相反 
的 解密 (decryption) 功能 以 后 ) A HEE HEE 
加 密 通 常 依赖 于 一 个 由 收发 双方 共享 的 密 钥 或 
依赖 于 一 对 公开 /私有 密 钥 . 

Ethernet (以 太 网 ): 一 种 使 用 CSMA/CD 的 流行 
EAA 10Mbps 的 带宽 .以 太 网 
本 身 只 是 一 条 无 源 线路 ， 所 有 与 以 太 网 传输 有 
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关 的 功能 完全 由 主机 的 适配器 实现 。 

exponential backoff (指数 后 退 ): 一 种 重 传 策略 ， 
革 个 分 组 每 次 重 传 会 使 超时 值 加 倍 。 

exposed node problem (暴露 节点 问题 ): 在 无 线 网 
络 中 发 生 的 一 种 情况 ， 其 中 两 个 节点 从 同一 个 
源 接收 信号 ,但 它们 都 能 到 达 不 接收 该 信号 的 
其 他 节点 。 

extended LAN (扩展 局 域 网 ): 由 网 桥 连 接 的 局 域 
网 的 集合 。 

fabric (网 状 结构 ): 交换 机 中 真正 完成 交换 的 部 
分 ， 即 将 分 组 从 输入 移 到 输出 。 对 比 端 口 
(port). 

fair queuing (FQ， 公 平 排队 法 ): 一 种 基于 循环 的 
排队 算法 ， 能 防止 行为 不 良 的 进程 任意 占用 很 
多 网 络 容 量 。 

fast retransmit， 快速 重 传 。 一 种 由 TCP 使 用 的 策 
略 ， 旨 在 避免 在 发 生 分 组 丢失 时 出 现 超时 现象 。 
“4 TCP 收 到 3 个 连续 的 重复 ACK、 并 确认 (不 
包括 ) 那个 分 段 之 前 的 所 有 数据 后 ， 就 重 传 该 
分 段 

FDDI (Fiber Distributed Data Interface, KASH 
式 数 据 接口 ): 一 种 运行 在 光纤 上 的 高 速 令 牌 环 
网 络 技术 ， 

FEC: 前 向 纠 错 (Forward Error Correction), 
一 种 不 用 重 传 分 组 而 恢复 数据 分 组 中 的 比特 差 
错 的 通用 策略 。 每 个 分 组 中 含有 宛 余 信息 ， 接 
收 方 可 用 来 确定 哪些 比特 是 不 正确 的 。 对 比 
ARQ. 四 转发 等 价 类 (Forwarding Equivalence 
Class)， 在 路 由 器 上 接收 相同 转发 待遇 的 分 组 ， 
MPLS 标签 通常 与 FEC 相关 联 。 

Fibre Channel (光纤 信道 ): 一 种 常用 于 将 计算 机 
(通常 是 超级 计算 机 ) 和 外 设 相 连 的 双向 链 路 协 
议 。 光 纤 信 道具 有 100MBps 的 带宽 ， 最 长 可 
达 30m, 

firewall (防火 墙 ) : 一 个 被 配置 成 过 滤 (不 转发 ) 
来 自 特定 源 的 分 组 的 路 由 器 。 用 于 实现 一 种 安 
全 策略 。 

flow control (流量 控制 ): 数据 的 接收 方 调节 发 送 
方 传输 速率 的 一 种 机 制 ， 以 便 使 数据 不 要 到 达 
太 快 以 至 于 来 不 及 处 理 。 对 比 拥塞 控制 Con- 
gestion control), 

flowspec ( 流 说 明 ) : 说 明 一 个 流 所 需 的 网 络 带 宽 
和 延迟 以 便 建 立 顶 留 ， 与 RSVP 一 起 使 用 。 

forwarding (转发 ): 路 由 器 对 每 个 分 组 执行 的 一 种 


操作 ， 在 某 个 输入 端 收 到 分 组 ， 决 定 将 分 组 从 
哪个 输出 端 发 出 去 ， 并 将 分 组 发 送 到 那个 输 

forwarding table (转发 表 ): 路 由 器 中 维护 的 一 个 
表 ， 能 使 路 由 器 决定 如 何 转发 分 组 。 建 立 转发 
表 的 过 程 称 为 路 由 选择 ， 所 以 转发 表 有 时 也 称 
为 路 由 表 (routing table) 。 在 有 些 实现 中 ， 路 由 
表 和 转发 表 是 独立 的 数据 结构 。 

fragmentation/reassembly (分 片 和 重组 ): 传输 消 
息 的 大 小 超过 网 络 MTU 时 采用 的 方法 。 消 息 
由 发 送 方 分 成 较 小 的 片 ， 由 接收 方 将 其 重新 
组 装 。 

frame ( 帧 ) :分 组 的 另 一 个 名 称 ， 通 常用 于 指 在 一 
条 链 路 上 而 不 是 在 整个 网 络 上 发 送 的 分 组 。 关 
于 帧 的 一 个 重要 问题 是 接收 方 如 何 检测 帧 的 开 
始 和 结束 ， 即 组 帧 问题 。 

Frame Relay ( 帧 中 继 ): 电话 公司 提供 的 一 种 面向 
连接 的 公用 分 组 交换 服务 。 

frequency hopping ( 跳 频 ): 在 频率 的 随机 序列 上 
传输 数据 的 一 种 扩 频 技术 。 

FTP (File Transfer Protocol, 文件 传输 协议 ): 用 
于 在 两 个 主机 间 传 输 文件 的 因特网 体系 结构 的 
标准 协议 ， 建 立 在 TCP 之 上 。 

GMPLS ( Generalized Multi-Protocol Label Switc- 
hing， 通 用 多 协议 标签 交换 ): 允许 IP 运行 在 光 
交换 网 络 上 。 

gopher: 一 种 早期 的 因特网 信息 服务 。 

GPRS (通用 分 组 无 线 通信 服务 ): 蜂窝 无 线 网 络 
提供 的 一 种 分 组 传输 服务 。 

GSM (Global System for Mobile Communication ， 全 
球 移动 系统 ) : ME id (EAD AY Ce LA BE 

H. 323: 通常 用 于 因特网 电话 的 会 话 控制 协议 。 

handle (句柄 ): 在 程序 设计 中 用 来 存 取 一 个 对 象 
的 标识 符 或 指针 。 

hardware address (硬件 地 址 ) : 用 于 标识 局 域 网 中 
的 主机 适配器 的 链 路 层 地 址 。 

HDLC (High-Level Data Link Control protocol， 高 级 
数据 链 路 控制 协议 ) : 一 种 链 路 层 协 议 的 ISO 标 
准 ， 使 用 比特 填充 来 解决 组 帧 问题 。 

hidden node problem (隐藏 节点 问题 )， 在 无 线 网 
络 中 发 生 的 一 种 情况 ， 其 中 两 个 节点 向 同一 个 
目标 发 送信 息 ， 但 每 个 节点 都 不 知道 另 一 个 节 
点 的 存在 。 

hierarchical routing (层次 路 由 ): 一 种 多 层 路 由 选 





择 方案 ， 使 用 地 址 空间 的 分 层 结构 作为 转发 决 
策 的 基础 。 例 如 ， 分 组 首先 被 路 由 到 目标 网 络 ， 
然后 送 到 网 络 中 的 特定 主机 。 


host (主机 ): 连接 到 一 个 或 多 个 网 络 的 计算 机 ， 
支持 用 户 并 运行 应 用 程序 。 


HTML (Hyper Text Markup Language， 超 文本 标记 
语言 ) : 一 种 用 于 构建 万 维 网 网 页 的 语言 。 

. HTTP (HyperText Transport Protocol， 超 文本 传输 
协议 ) : 一 种 基于 请 求 /响应 模式 的 应 用 层 协议 ， 
用 于 万 维 网 。HTTP 使 用 TCP 连接 传输 数据 。 

IAB (Internet Architecture Board， 因 特 网 体系 结构 
工作 委员 会 ): 审查 因特网 体系 结构 协议 的 开发 
和 标准 化 的 主要 机 构 。 以 前 称 为 因特网 法 案 。 

iBGP (Interior BGP， 内 部 边界 网 关 协 议 ): 用 于 在 
同一 区 域 的 路 由 器 间 交 换 域 间 路 由 信息 的 协议 。 

ICMP (Internet Control Message Protocol， 网 际 控 
制 报 文 协议 ): 该 协议 是 IP 的 一 部 分 。 它 允许 
路 由 器 或 目标 主机 与 源 主机 通信 ， 通 常 报 告 IP 
数据 报 处 理 过 程 中 的 错误 。 

IEEE (Institute for Electrical and Electronics Engi- 
neers， 电 气 和 电子 工程 师 协 会 ): 工程 师 的 专业 
协会 ， 也 定义 网 络 标准 ， 包 括 802 系列 局 域 网 
标准 。 

IETF (Internet Engineering Task Force， 因 特 网 工 
程 任务 组 ) : 负责 开发 因特网 标准 和 最 佳 实践 的 
主要 组 织 

IMAP (Internet Message Access Protocol， 因 特 网 
消息 访问 协议 ) : 允许 用 户 从 邮件 服务 器 读 取 其 
邮件 的 一 个 应 用 层 协议 。 

IMP-IMP: 在 最 早 的 ARPANET 中 使 用 的 面向 字 
节 的 链 路 层 协 议 。 


Integrated Services (综合 服务 ): 通常 指 能 同时 有 
效 支持 传统 的 计算 机 数据 以 及 实时 音频 和 视频 


一 个 分 组 交换 网 ， 也 指 用 来 替代 现 有 的 尽力 

服务 模型 的 一 种 因特网 服务 模型 。 

integrity (完整 性 ): 在 网 络 安全 的 环境 中 确保 收 
到 的 消息 与 发 送 的 消息 相同 的 一 种 服务 。 

interdomain routing ( 域 间 路 由 ): 在 不 同 的 路 由 选 
择 域 之 间 交 换 路 由 信息 的 一 种 服务 。BGP 是 域 
间 路 由 协议 的 例子 。 

internet (互联 网 ): 通过 路 由 器 互联 起 来 的 分 组 交 
换 网 的 集合 〈 可 能 是 异 构 的 )。 也 称 为 internet- 
work, 


Internet (因特网 ) : 基于 TCP/IP 体系 结构 的 全 球 


互联 网 ， 连 接 世 界 各 地 数 百 万 台 主 机 
interoperability ( 互 操作 性 ) : 指 异 构 的 便 件 以 及 多 
厂商 软件 通过 正确 — 换 消 息 进 行 通信 的 能 力 
interrupt (中 断 ): 告诉 操作 系统 停 目 当前 活动 并 

采取 某 种 行动 的 (通常 由 硬件 设备 产生 的 ) 一 

种 事件 ,例如 ， 有 一 种 中 断 是 用 来 通知 操作 系 

统 有 一 个 分 组 已 经 从 网 络 上 到 达 
(域内 路 由 选择 ): 在 一 个 域 或 
一 个 自治 系统 内 部 交换 路 由 选择 信息 。RIP 和 
OSPF 是 域内 路 由 选择 协议 的 实例 ， 


intradomain routing 


IP (Internet Protocol， 网际 协 议 ): 在 因特网 上 提 
供 一 种 无 连接 的 、 尽 力 传 送 数据 报 服务 的 协议 


IPng (下 一 代 IP， 也 叫 作 IPv6): IP 的 新 版 本 ， 
供 更 大 更 多 的 层次 性 地 址 空间 和 其 他 新 的 特性 。 
IPsec (IP 安全 ): 用 于 认证 、 保密 和 消息 完整 性 

的 一 种 体系 结构 ， 是 因特网 的 安全 服务 之 一 

IRTF (Internet Research Task Force, 特 网 研究 
EZA): IAB 的 一 个 部 门 ， 负 责 制定 因特网 的 
研究 和 发 展 方向 

ISDN (Integrated Services Digital Network ， 综 合 业 
务 数字 网 ) : 由 电话 公司 提供 的 一 种 数字 通信 服 
务 ， 由 ITU-T 标准 化 。ISDN 将 话音 连接 与 数 
字数 据 服 务 合并 在 单一 的 物理 介质 中 ， 

IS-IS (Intermediate System to Intermediate Sys- 
tem): 一 种 链 路 状态 路 由 选择 协议 ， 类似 于 
OSPF. 

ISO (International Standards Organization, E Br tr 
准 化 组 织 ): 该 组 织 设 计 了 七 层 OSI 体系 结构 以 
及 一 整套 在 商业 上 未 获 成 功 的 协议 。 

ITU-T: 国际 电信 联盟 的 附属 委员 会 ， 为 国际 模拟 
和 数字 通信 的 所 有 领域 制订 技术 标准 的 国际 组 
织 。ITU-T 制订 电信 和 标准， 包括 引 人 注 目的 
ATM 标准 。 

jitter (抖动 ) : 指 网 络 时 延 的 变化 。 hl 
对 视频 和 音频 应 用 的 质量 产生 负面 影响 。 

JPEG ( Joint Photographic Experts ae 联合 图 
RERA): 通常 是 指 由 联合 图 像 专家 组 开发 的 
一 种 广泛 用 于 压缩 静止 图 像 的 算法 。 

MIT 开发 的 基于 TCP/IP 的 认证 系统 ， 
其 中 两 台 主 机 使 用 可 信 第 三 方 相互 认证 。 

key distribution ( 密 钥 分 发 ): 用 户 之 间 通 过 交换 数 
字 签 名 的 证 书 获得 对 方 公 钥 的 一 种 机 制 。 

LAN (Local Area Network, BÈN): 一 种 基于 物 
理 网 络 技术 的 网 络 ， 最 多 可 跨越 几 公 里 〈 例 如 





Kerberos : 


大 TE 
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以 太 网 或 FDDI) 。 对比 SAN, MAN 和 WAN, 
LAN switch (局 域 网 交换 机 ): MHF (bridge) 的 另 
一 个 术语 .通常 用 于 有 具有 多 个 端口 的 网 桥 。 如 
果 它 支持 的 链 路 技术 是 以 太 网 ， 也 称 为 以 太 同 
交换 机 。 

latency (时 延 ): 衡量 一 个 比特 从 链 路 或 信道 的 一 
端 到 达 另 一 端 所 震 的 时 间 。 时 延 严 格 使 用 时 间 

LDAP (Lightweight Directory Access Protocol, 轻 
量 级 目录 访问 协议 ) : 最 近 流 行 的 一 种 用 户 信息 

目录 服务 X. 500 的 一 个 子 集 。 

LER (Label Edge router， 标 签 边缘 路 由 器 ): 位 于 
MPLS 边缘 的 路 由 器 ， 对 到 达 的 IP 分 组 执行 完 
整 的 IP 查询 ， 然后 用 标签 作为 查询 结果 

link ( 链 路 ): 网 络 中 两 个 节点 之 间 的 物理 连接 
它 可 以 是 铜 线 或 光线 ,也 可 以 是 无 线 链 路 〈 例 
如 和 人造 卫星 )， 

link-level protocol ( 链 路 层 协议 ): 负责 在 直接 相 
连 的 网 络 〈 例 如 以 太 网 、 令 牌 环 或 点 到 点 链 路 ) 
上 传送 帧 的 协议 。 也 称 为 link-layer protocol, 

link state ( 链 路 状态 ): 用 于 路 由 选择 的 最 小 开销 
路 径 算法 。 直 接连 接 的 邻居 的 信息 和 当前 链 路 
的 开销 被 扩散 给 所 有 路 由 器 ， 每 台 路 由 需 用 这 
个 信息 构造 网 络 图 ， 并 以 此 图 作为 转发 决策 的 
依据 。 开放 最 短路 径 优 先 〈OSPF) 路 由 选择 协 
议 使 用 一 种 链 路 状态 算法 。 对比 距 离 向 量 〈dis 
tance vector), 

LSR (Label-Switching Router， 标 签 交换 路 由 器 ): 
运行 IP 控制 协议 的 路 由 器 ， 但 使 用 MPLS 标签 
交换 转发 算法 。 

MAC (Media Access Control， 介 质 访 问 控制 ): 用 
于 控制 访问 诸如 以 太 网 和 光纤 分 布 数据 接 口 
(FDDI) 的 共享 介质 网 络 的 算法 

MACA (Multiple Access with Collision Avoidance, 
带 冲突 避免 的 多 路 访问 ): 用 于 调解 共享 介质 访 
问 的 分 布 式 算法 。 

MACAW (Multiple Access with Collision Avoidance 
for Wireless， 用 于 无 线 网 络 的 带 冲 突 避 免 的 多 
路 访问 ): 是 通用 的 MACA 算法 的 一 种 改进 ， 
能 更 好 地 支持 无 线 网 络 。 已 由 802. 11 采用 ， 

MAN (Metropolitan Area Network ， 城 域 网 ) : 使 用 
新 网 络 技术 的 网 络 ， 这 些 新 技术 以 高 速 运行 
(可 达 几 个 Gbps) 并 且 跨 越 的 距离 足以 短 盖 一 
个 城市 的 区 域 。 对 比 SAN, LAN 和 WAN, 





Manchester (曼彻斯特 编码 ) : 一 种 比特 编码 方案 ， 
传输 的 是 时 钟 与 非 归 零 (NRZ) 编码 数据 的 异 
或 值 ， 用 于 以 太 网 。 

MBone (Multicast Backbone， 多 播 主 干 网 ): 构建 
在 因特网 上 的 一 个 迎 辑 网 络 ， 其 中 具有 增强 的 
多 播 功 能 的 路 由 器 使 用 隧道 技术 跨越 因特网 转 
发 多 播 数 据 报 。 

MD5 (Message Digest version 5， 报 文摘 要 版 本 
5): 一 种 有 效 的 密码 校 验 和 算法 ， 常 用 于 验证 
消息 的 内 容 未 被 改动 。 

MIB (Management Information Base， 管 理 信 息 库 ) : 
定义 一 个 网 络 节点 上 可 以 读 写 的 与 网 络 相关 的 
变量 的 集合 MIB 同 简单 网 络 管 理 协 议 
(SNMP) 一 起 使 用 ， 

MIME (Multipurpose Internet Mail Extensions， 多 功 
能 因特网 邮件 扩展 ): 将 二 进 制 数据 (如 图 像 文 
件 ) 转换 成 ASCII 文本 ， 然 后 通过 电子 邮件 传 
送 的 规范 。 

Mosaic: 一 种 以 前 流行 的 免费 图 形 界 面 WWW 浏 
览 占 ， 由 位 于 伊利 诺 斯 州 大 党 的 美国 国家 超级 
计算 应 用 中 心 开 发 。 

MP3 (MPEG Layer 3, MPEG 第 三 层 ): 与 MPEG 
一 起 使 用 的 音频 压缩 算法 。 

MPEG (Moving Picture Experts Group ， 运 动 图 像 专 
RA): 它 通 常用 来 指 由 MPEG 开发 的 压缩 视 
频 流 的 算法 o 

MPLS (Multiprotocol Label Switching， 多 协议 标签 
交换 ): 在 第 二 层 (如 ATM) 交换 机 上 有 效 实 
现 IP 路 申 的 技术 集合 。 

MSDP (多 播 源 发 现 协议 ): 用 于 实现 域 间 多 播 的 
协议 。 

MTU ( Maximum Transmission Unit， 最 大 传输 单 
T): 在 一 个 物理 网 络 上 可 以 传输 的 最 大 分 组 的 
大 小 。 

multicast (多 播 ): 广播 的 一 种 特殊 形式 ， 分 组 被 
传递 到 网 络 主机 的 一 个 指定 子 集 。 

multiplexing (多 路 复 用 ) : 将 多 个 不 同 的 信道 合并 
到 一 个 低层 信道 。 例 如 ， 分 离 的 TCP 和 UDP 
信道 被 多 路 复 用 到 一 条 主机 到 主机 的 IP 信道 
上 二。 其 逆 操 作 是 多 路 分 解 (demultiplexing)， 在 
接收 主机 上 执行 。 

name resolution (名 字 解 析 ): 将 主机 的 名 字 ( 易 
于 该 取 ) 翻译 成 对 应 的 地 址 (机 器 可 读 )。 参 
KL DNS, 
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NAT (Network Address Translation, M 4% it ik $E 
换 ): 一 种 扩展 IP 地 址 空间 的 技术 ， 在 站 点 或 
网 络 边界 的 本 地 唯一 地 址 和 全 球 理解 的 IP 地 址 
之 间 进 行 转换 。 

NDR (Network Data Representation， 网 络 数据 表 
R): 在 分 布 式 计算 环境 (DCE) 中 使 用 的 数据 
编码 标准 ， 由 开放 软件 基金 会 定义 。NDR 使 用 
接收 方 保证 正确 的 策略 并 将 体系 结构 标志 插 人 
到 每 个 消息 的 前 部 。 

network-level protocol (网 络 层 协 议 ) : 在 交换 网 络 
上 运行 的 协议 ， 直 接 在 链 路 层 之 上 。 

NFS (Network File System， 网 络 文件 系统 ): 一 种 
由 Sun 微 系统 公司 开发 的 流行 的 分 布 式 文件 系 
统 ， 基 于 Sun 公司 开发 的 一 种 RPC 协议 SunR- 
PC, 

NIST (National Institute for Standards and Technolo- 
gy， 美 国 国家 标准 技术 协会 ) : 美国 官方 的 标准 
化 组 织 。 

node (节点 ): 用 于 表示 构成 网 络 的 单个 计算 机 的 
通用 术语 。 节 点 包括 通用 计算 机 、 交 换 机 和 路 
由 器 。 

NRZ (Non-Return to Zero， 非 归 零 编码 ): 一 种 比 
特 编码 方案 ， 将 1 编 为 高 信号 ，0 编 为 低 信号， 
NRZI (Non-Return to Zero Inverted， 非 归 零 反 转 编 
码 ): 一 种 比特 编码 方案 ， 在 当前 信号 跳 变 时 编 

码 为 1， 在 当前 信号 不 变 时 编码 为 0。 

NSF (National Science Foundation， 美 国 国家 科学 
基金 会 ) : 美国 政府 资助 其 国内 科学 研究 的 机 
构 ， 包 括 对 网 络 和 因特网 基础 设施 的 研究 。 

OC (Optical Carrier， 光 载波 ) : 它 是 SONET 361% 
输 的 各 种 速率 的 前 级。 例如 ，OC-1 指 在 光纤 上 
传输 速率 为 51. 84Mbps 的 SONET 标准 。OC-m 
信号 与 STS-n 信号 的 差别 ， 仅 在 于 OC-n 信号 是 
用 于 对 光 传 输 进行 扰 频 的 。 

ONC (Open Network Computing， 开 放 网 络 计算 ) : 
被 因特网 采纳 为 标准 的 SunRPC 的 一 个 版 本 。 
OSF (Open Software Foundation， 开 放 软 件 基金 
Z): 一 个 计算 机 厂商 的 联合 会 ， 为 分 布 式 计算 
定义 了 多 种 标准 ， 包 括 国家 数据 表示 (NDR) 

格式 。 

optical switch ( 光 交 换 机 ): 一 种 能 将 来 自 输入 端 
口 的 光波 不 需 转换 成 电子 信号 就 能 转发 到 输出 
端口 的 交换 设备 。 

OSI (Open Systems Interconnection， 开 放 系 统 互 


联 ): 由 ISO 开发 的 七 层 网 络 参 考 模 型 。 指 导 
ISO fl ITU-T 协议 标准 的 设计 。 

OSPF (Open Shortest Path First， 开 放 最 短路 径 优 
先 ): 由 IETF 为 内 特 网 体系 结构 开发 的 路 由 协 
i, OSPF 是 基于 链 路 状态 (link-state) 的 算 
法 .其 中 每 个 结 点 构造 因特网 的 一 个 拓扑 图 并 
根据 该 图 做 出 转发 决定 。 

overlay (覆盖 ) ; 运行 在 已 存在 物理 网 络 上 的 一 个 
虚拟 (逻辑 ) 网 。 窗 盖 节点 彼此 通过 隧道 而 不 
是 物理 链 路 进行 通信 。 由 于 覆盖 不 要 求 现 有 网 
络 基 础 设施 的 协作 ， 因 此 通常 用 来 部 署 新 的 网 
络 服务 。 

packet (分 组 ): 在 分 组 交换 网 上 发 送 的 数据 单元 。 
参见 帧 (frame) MAH (segment). 

packet switching (分 组 交换 ): 在 网 络 上 交换 数据 
的 通用 策略 。 分 组 交换 使 用 存储 转发 机 制 交换 
称 为 分 组 的 离散 数据 单元 ， 并 包含 统计 多 路 复 
用 (statistical multiplexing) 。 

participants (参与 者 ) : 用 于 表示 相互 发 送 消息 的 
进程 、 协 议 或 主机 的 通用 术语 。 

PAWS (Protection Against Wrapped Sequence num- 
bers， 防 止 序号 回 绕 ): 设计 具有 足够 大 序号 空 
间 的 传输 协议 . 以 防止 在 一 个 分 组 可 能 被 长 时 
间 延 迟 的 网 络 上 出 现 序号 回 绕 。 

PDU (Protocol Date Unit， 协 议 数 据 单元 ) : 分 组 或 
帧 的 另 一 个 名 称 。 

peer (对 等 实体 ) : 指 一 个 主机 上 的 协议 模块 为 实 
现 某 些 通信 服务 而 与 之 交互 的 男 一 个 主机 上 的 
对 等 体 。 

peer-to-peer networks (对 等 网 ) : 将 应 用 逻辑 A 
如 文件 存储 ) 与 路 由 选择 集成 的 一 类 通用 应 用 。 
有 名 的 例子 包括 Napster 和 Gnutella。 研 究 原 型 
通常 使 用 分 布 式 散 列表 ， 

PEM (Privacy Enhanced Mail， 隐 私 增强 邮件 ) : 对 
因特网 电子 邮件 扩展 . 支持 保密 性 和 完整 性 保 
护 。 参 见 PGP。 

PGP (Pretty Good Privacy, RFRA): 公用 域 软 
件 的 一 个 集合 ， 它 们 用 RSA 提供 保密 性 和 认证 
能 力 ， 并 使 用 公 钥 分 发 信任 网 络 进行 密 钥 分 发 。 

PHB (Per-Hop Behavior， 每 跳 行 为 ): 区 分 服务 体 
系 结构 中 单个 路 由 器 的 行为 。AF 和 EF 是 两 种 
建议 的 PHB。 

physical-level protocol (物理 层 协议 ): OSI 协议 栈 
的 最 低层 。 它 的 主要 功能 是 将 比特 编码 为 可 在 





物理 传输 介质 上 传输 的 信号 

piconet (RAM): 短 距 离 (如 10m) 的 无 线 网 
络 . 可 以 不 使 用 电缆 而 连接 办 公 室 的 = 机 
(笔记 本 电脑 、 打 印 机 、PDA、 工 作 站 等 

PIM (Protocol Independent Multicast， 协 议 无 关 多 
$B): 可 以 建造 在 不 同 的 单 播 路 由 协议 上 的 多 播 
路 由 协议 。 

Ping: 用 于 测试 因特网 上 到 不 同 主机 的 RTT 的 
UNIX 工具 。Ping ey 条 ICMP ECHO _ RE- 
QUEST 消息 ， 然 后 远程 主机 发 回 一 个 ECHO _ 
RESPONSE 消息 。 

PIO (Programmed Input/Output， 可 编程 输入 / 输 
H): 一 种 连接 主机 到 I/O 设备 的 方法 ，CPU 从 
VO 设备 读数 据 并 向 OK eR. S 
见 DMA, 

poison reverse (毒性 逆转 ): 和 水 平分 割 (split 
horizon) 结合 使 用 ， 是 距离 向 量 路 由 选择 协议 
中 避免 路 由 环 路 的 一 种 启发 式 技 术 。 

port (端口 ): 用 于 表示 一 个 网 络 用户 连 接 到 网 络 
结 点 的 通用 术语 。 在 交换 机 上 上 ， 端 口 表示 接收 
和 发 送 分 组 的 输入 或 输出 

POTS (Plain Old Telephone Service， 简 易 老 式 电 
WARS): 用 于 说 明 现 在 的 电话 服务 与 ISDN, 
IP 电话 (VoIP) 或 电话 公司 现在 及 将 来 提供 的 
其 他 技术 截然 不 同 。 

PPP (Point-to-Point Protocol， 点 到 点 协议 ) : 指 通 
常 通过 拨号 线路 连接 计算 机 的 数据 链 路 协议 。 

process (进程 ): 由 操作 系统 提供 的 一 种 抽象 。 允 
许 不 同 的 操作 并 发 执行 。 例如， 每 个 用 户 应 用 
程序 通常 在 自己 的 进程 内 进行 ， 而 各 种 操作 系 
统 功 能 则 在 其 他 进程 内 进行 。 

promiscuous mode (混杂 模式 ): 网 络 适 配器 的 一 
种 操作 模式 ， 适 配器 接收 网 络 上 传送 的 所 有 帧 ， 
而 并 不 仅仅 是 发 送 给 它 的 那些 帧 。 

protocol (HIX): 运行 在 不 同 计算 机 上 的 模块 之 
间 的 接口 规范 ， 以 及 那些 模块 实现 的 通信 服务 。 

这 个 术语 也 用 来 表示 满足 规范 的 模块 实现 。 为 

了 区 别 这 两 种 用 法 ,接口 通常 叫 作 协议 规范 
(protocol specification) , 

proxy (R): 位 于 客户 与 获取 消息 并 提供 服务 的 
服务 天 之 加 的 一 个 徊 能 体 ， 例如， 代理 可 以 充 
当 服务 器 的 “ 符 身 ”来 响应 客户 的 请 求 ， 可 能 
使 用 它 缓存 的 数据 ， 而 不 必 联 系 服务 器 ， 

pseudoheader ( 伪 首 部 ): IP 首部 中 的 字段 的 子 


集 ， 向 上 传递 给 传输 层 协 议 TCP 和 UDP， 以 便 
在 它们 计算 校 验 和 时 使 用 。 伪 首部 包括 源 和 目 
AY IP 地 址 以 及 JP 数据 报 长 度 ， 因 此 能 够 用 来 检 
测 这 些 字段 是 否 被 破坏 或 一 个 分 组 是 否 被 传送 
到 不 正确 的 地 址 。 

public key encryption ( 公 钥 加 密 ): 一 种 加 密 算法 
(如 RSA)， 其 中 每 个 参与 者 有 一 个 私 钥 (不 与 
任何 人 共享 ) 和 一 个 公 钥 〈 每 人 都 可 以 获得 )。 
一 条 保密 消息 使 用 用 户 的 公 钥 加 密 数 据 后 发 送 
给 用 户 。 由 于 需要 用 私 钥 解 密 消 息 ， 因 此 只 
接收 方 可 以 读 消息 。 

QoS (Quality of Service， 服 务 质 量 ): 由 网 络 体系 
结构 提供 的 分 组 传送 保证 。 通 常 与 性 能 保证 有 
关 ， 如 带宽 和 延迟 。 因 特 网 提供 尽力 传输 服务 ， 
即 尽 力 传输 一 个 分 组 ， 但 不 确保 正确 传输 。 

RED (Random Early Detection， 随 机 早期 检测 ): 
路 由 器 的 一 种 排队 规则 ， 当 预测 到 拥塞 时 ， 随 
机 丢弃 分 组 ， 警 告发 送 方 放 慢 发 送 速率 。 

rendezvous point (汇集 点 ): PIM 所 使 用 的 允许 接 
收 方 了 解 发 送 方 的 路 由 器 。 

repeater (中 继 器 ) : 一 种 将 电信 号 从 一 个 以 太 网 
电缆 传播 到 男 一 个 以 太 网 电线 的 设备 。 一 个 以 
太 网 的 任何 两 台 主机 之 间 最 多 可 能 有 两 台中 继 
需 。 中 继 器 转发 信号 ， 而 网 桥 (bridge) 转发 帧 

路 由 器 (router) 和 交换 机 (switch) 
转发 分 组 (packet) 。 

REST (Representational State Transfer， 表 述 性 状 
态 转移 ): 使 用 HTTP 作为 通用 应 用 协议 构建 
Web 服务 的 一 种 方法 。 

RFC (Request For Comments， 请 求 评论 ): 
报告 ， 其 中 包含 像 TCP 和 IP 这样 的 协议 规范 。 
RIP (Routing Information Protocol， 路 由 信息 协 
X): Berkeley Unix 提供 的 域内 路 由 协议 。 每 个 
运行 RIP 的 路 由 器 动态 地 建立 基于 距离 向 量 

(distance-vector) 算法 的 转发 表 。 

router (路 由 器 ): 连接 两 个 或 多 个 网 络 的 网 络 节 
点 ， 把 分 组 从 一 个 网 络 转发 到 另 一 个 网 络 。 对 
HE AH (bridge)、 中 继 器 (repeater) 和 交换 机 
(Switch ) 。 

routing (路 由 ): 一 个 进程 ， 节 点 通过 它 交换 用 于 
爸 建 正确 转发 表 的 拓扑 结构 信息 。 人 参见 转发 

链 路 状态 Clink state) 和 距离 向 

量 (distance vector) 。 


routing table (路 由 表 ): 


(frame), 


因特网 


(forwarding) , 


参见 转发 表 (forwarding 
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table), 


RPB (Reverse Path Broadcast， 逆 向 路 径 广 播 ): 
用 于 消除 重复 广播 分 组 的 一 种 技术 。 


RPC (Remote Procedure Call， 远 程 过 程 调用 ): 很 
多 客户 /服务 器 交互 使 用 的 同步 请 求 / 应 答 传 输 
协议 。 

RPR (Resilient Packet Ring， 弹 性 分 组 环 ): +H 
用 于 城 域 网 的 一 种 环 网 类 型 。 参 见 802.17, 

RSA: 一 种 公共 密 钥 加 密 算 法 ， 根 据 发 明 者 Riv 
erst, Shamir, Adleman 的 名 字 命 名 。 

RSVP (Resource Reservation Protocol， 资 源 预 留 
协议 ) : 在 网 络 中 预 留 资源 的 协议 。RSVP 使 用 
路 由 器 中 软 状 态 (soft state) iia Q KHR 
资源 的 责任 放 在 接收 方 而 不 是 发 送 方 。 

RTCP (Real-time Transport Control Protocol， 实 时 
传输 控制 协议 ) : 与 RTP 相关 的 控制 协议 

RTP (Real-time Transport Protocol， 实 时 传输 协 
议 ): 有 实时 性 约束 的 多 媒体 应 用 所 使 用 
端 协议 。 

RTT (Round-Trip Time， 往 返 时 间 ): 信息 的 一 个 
比特 从 链 路 或 信道 的 一 端 到 男 一 端 贞 返回 所 用 
的 时 间 ， 换 名 话说 ， 它 是 信道 时 延 的 两 倍 。 

SAN (System Area Network, RAKHNA): 跨 

一 个 计算 机 系统 不 同 部 分 (如 显示 器 、 摄 像 
头 、 磁 盘 ) 的 网 络 。 有 时 代表 存储 区 域 网 (stor 

包括 像 HiPPI 和 光纤 信道 这 
样 的 接口 。 对 比 LAN, MAN 和 WAN, 

schema (大 纲 ): 说 明 如 何 构造 和 解释 一 组 数据 的 
规范 ， 是 为 XML 文档 定义 的 。 

scrambling ( 扰 频 ): 在 传输 前 将 一 个 信号 与 伪 随 
机 比特 流 进行 异 或 操作 的 进程 ， 以便 能 实现 时 
钟 恢复 所 需 的 足够 的 信号 转变 。 扰 频 用 于 SO- 
NET 中 。 

SDP (Session Description Protocol, 会话 描 述 协 
议 ) : 用 于 获悉 音频 /视频 信道 可 用 性 的 应 用 屋 
协议 。 它 记录 会 话 的 名 称 和 目的 、 开 始 和 结束 
的 时 间 、 媒 体 类 型 〈 例 如 音频 、 视 频 ) 以 及 接 
收 会 话 的 详细 信息 〈 例 如 多 播 地 址 、 传 输 协议 
和 使 用 的 端口 号 ) 。 

SHA (Secure Hash Algorithm， 安 全 散 列 算法 ) : 一 
系列 加 密 散 列 算法 中 的 一 个 。 

segment ( 报 文 段 ); 一 个 TCP 分 组 。 一 个 报 文 段 
包含 的 正在 由 TCP 发 送 的 字 节 流 的 一 部 分 。 

SELECT: 用 于 构建 远程 过 程 调用 协议 的 一 个 同步 


的 端 到 


age area network), 


多 路 分 解 协议 。 

semaphore (信号 量 ): 用 于 支持 进程 间 同 步 的 一 
PRA Bs -TARRE Man M-p 
信号 量 上 ， 等 待 另 一 个 进程 给 此 信号 量 发 信号 

server (服务 器 ) : 客户 /服务 器 分 布 式 系统 中 的 服 
务 提供 者 

signalling (E): 在 物理 层 ， alan 某 种 物 
理 介 质 的 信号 的 传输 。 在 ATM 中 ， 
立 虚 电 路 的 进程 

silly window syndrome (傻瓜 窗口 症状 ): TCP 中 
发 生 的 一 种 情况 .发送 方 发 送 一 个 小 数据 段 就 
能 填 满 窗口 ， 如 果 每 次 接收 方 打开 接收 窗口 很 
小 时 就 会 发 生 这 种 情况 ,结果 是 产生 很 多 小 数 
据 段 . 不 能 充分 使 用 带宽 

SIP (Session Initiation Protocol， 会 话 初 始 化 协 
议 ) : 用 于 多 媒体 应 用 的 应 用 层 协议 . EES 
特定 的 用 户 通 信 的 恰当 设备 . 确定 用 户 是 否 愿 
意 或 能 够 参加 一 个 特定 的 通信 和 会话， 确定 选择 
使 用 哪 种 介质 和 编码 方案 ， 并 建立 会 话 的 参数 
(如 端口 号 ) 。 

sliding window (滑动 窗口 ): 允许 发 送 方 在 接收 到 
一 个 确认 之 前 发 送 多 个 (最 多 是 窗口 的 尺寸 ) 
分 组 的 算法 。 当 窗口 中 先 被 发 出 的 那些 分 组 的 
确认 返回 后 ,窗口 就 “滑动 "然后 可 以 发 送 更 
多 的 分 组 。 滑动 窗口 算法 将 可 靠 传 输 与 高 吞吐 
量 结合 起 来 。 参 见 ARQ. 

slow start ( 慢 启 动 ): TCP 的 一 个 防止 拥塞 的 算 


法 .尝试 协调 输出 数据 段 的 速度 。 对 于 每 个 返 
回 的 ACK. 再 发 送 两 个 分 组 ,使 得 未 传输 的 数 
据 段 的 数目 呈 Se 


SMTP (Simple Mail Transfer Protocol， 简 单 邮 件 传 
输 协议 ): 因特网 的 电子 邮件 协议 。 人 参见 822, 
SNA (System Network Architecture， 系 统 网 络 体系 

结构 ): IBM 的 专 有 网 络 体系 结构 。 

SNMP (Simple Network Management Protocol， 简 
单 网 络 管理 协议 ) : 一 个 允许 监视 主机 、 网 络 和 
路 由 器 的 因特网 协议 。 

SOAP: 用 于 定义 和 实现 应 用 协议 的 Web 服务 框架 
的 组 件 。 

socket ( 套 接 字 ): 由 Unix 提供 的 对 TCP/IP 应 用 
程序 的 应 用 编程 接口 (API) 的 抽象 。 

soft state ( 软 状态 ): 包含 在 路 由 器 中 的 与 连接 
有 关 的 信息 ， 它 被 缓存 一 段 有 限 的 时 间 ， 而 
不 是 通过 连接 建立 阶段 被 明确 建立 〈 并 需要 





明确 撤销 )。 

SONET (Synchronous Optical Network， 同 步 光 纤 
网 络 ) : 在 光纤 上 进行 数字 传输 的 基于 时 钟 的 建 
帧 标准 ， 定 义 电话 公司 如 何在 光纤 网 络 上 传输 
数据 。 

source eae ( 源 路 由 ): 指 在 分 组 被 发 送 之 前 ， 

端 来 做 出 路 由 选择 决定 。 路 由 包括 分 组 到 


. aea ieni J 节点 列表 。 

source-specific multicast (特定 源 多 播 ): 一 种 多 描 
方式 ， 其 中 一 个 组 可 以 只 有 一 个 发 送 方 。 

sparse mode multicast (FRM SH): 当 相 对 的 
少数 主机 或 路 由 器 需要 接收 某 个 组 的 多 播 数据 


时 在 PIM 中 使 用 的 模式 。 

split horizon (水 平分 割 ): 在 距离 向 其 路 由 算法 中 
打破 路 由 循环 的 一 种 方法 。 当 一 个 节点 发 送 一 
条 路 由 更 新 信息 给 它 的 邻居 时 ， 并 不 把 从 每 个 


邻居 处 得 知 的 路 由 再 发 还 给 那个 邻居 。 水 平分 
割 和 毒性 逆转 一 起 使 用 

spread spectrum ( 扩 频 ): 一 种 编码 技术 ， 在 比 帘 
要 的 更 宽 的 频率 上 扩展 一 个 信和 号， 使 得 干扰 的 


影响 降 至 最 小 。 

SSL (Secure Socket Layer， 安 全 套 接 字 层 ) : 运行 
E TCP 之 上 的 一 个 协议 层 ， 提 供 连 接 的 认证 和 
加 密 ， 也 称 为 传输 层 安 全 TLS., 

statistical multiplexing (统计 多 路 复 用 ): 在 一 条 共 
享 链 路 或 信道 上 多 数据 源 的 基于 请 求 的 多 路 
复 用 ， 

stop-and-wait (停止 -等 待 ): 
法 ， 发 送 方 发 送 一 个 分 组 ， 
分 组 之 前 等 待 应 答 
dow) 种 并 发 人 逻辑 信道 (concurrent logical chan 
nels) 比较 。 参 见 ARQ. 

STS (Synchronous Transport Signal, 


一 种 可 靠 的 传输 算 
然后 在 发 送 下 一 个 
与 滑动 窗口 (sliding win 


同步 传输 信号 ): 
SONET 的 不 同 传输 速率 的 前 级 。 例 如 ，STS-1 
是 指 用 于 51. 84Mbps 传输 的 SONET 标准 ， 
subnetting (划分 子 网 ): 用 一 个 IP 网 络 地 址 表示 多 
个 物理 网 络 ， 子 网 内 的 路 由 器 使 用 子 网 挖 码 来 找 
到 分 组 应 被 转发 到 哪个 物理 网 络 。 划 分 子 网 实际 
上 是 在 两 层 结 构 的 IP 地址 中 引入 另 一 层 。 
SunRPC; 由 Sun 人 微 系统 公司 开发 的 远程 过 程 调 用 
协议 。SunRPC 用 于 支持 NFS。 参 见 ONC, 
switch (交换 机 ): 基于 每 个 分 组 中 的 首部 信息 将 
分 组 从 输入 背 转 发 到 输出 足 的 网 络 节点 ， 与 路 
由 冲 的 主要 区 别 基 它们 通常 在 用 来 王 联 不 同类 


AMY) pA 

switching fabric (交换 机 构 ): 将 分 组 从 输入 端 引 
导 到 正确 箱 ! 的 交换 机 的 部 件 。 

T1: 等 价 于 24 条 ISDN 电路 或 1. 544Mbps 的 一 种 
br HEL bh ak U aw 务 ， 也 称 为 DSl 。 

T3: 等 价 于 24 条 Tl 电路 或 者 44.736Mbps 的 一 
种 标准 电 en 波 服 务 ， 也 称 为 DS3。 

TCP (Transmission Control Protocol， 传 输 控 制 协 
W): 因特网 体系 结构 的 面向 连接 的 传输 协议 ， 
提供 可 靠 的 字 节 流传 输 服 务 。 

TDMA (Time Division Multiple Access， 时 分 多 路 复 
用 于 蜂 窗 ps 

是 一 个 特定 无 线 标准 

因特网 体系 结 z Ùt ee Brit. Telnet 
可 以 使 用 户 与 一 个 远程 系统 交互 就 好 像 用 户 
终端 直接 连 在 那 台 计算 机 上 一 样 ， 

throughput bh : 当 发 送 数 据 通过 一 个 信道 时 
观察 到 的 速率 。 这 个 术语 有 时 与 带宽 
width) 互 换 使 用 。 

TLS (Transport Layer Security， 传 输 层 安全 ): 可 
以 放 在 像 TCP 这 样 的 传输 协议 上 的 安全 服务 
通常 被 HTTP 用 来 完成 万 维 网 上 的 安全 事务 。 
起 源 于 SSL 

token bucket ( 令 牌 桶 ) 描述 或 管理 - 
宽 的 一 种 方法 。 从 概念 上 讲 ， 进程 随时 间 积 累 
令 牧 ,并 且 必 须 用 掉 一 个 令 牌 来 传输 数据 的 一 
个 字 节 ， 然 后 在 没有 剩余 令 牌 时 必须 停止 发 送 。 
这 样 ， 总 的 带宽 受到 某 种 突 发 性 调节 的 限制 。 

token ring ( 令 牌 环 ): 将 主机 连 成 一 个 环 的 物理 网 
络 技术 ， 一 个 令 牌 (比特 模式 ) 绕 环 路 循环 ， 

-个 给 定 的 节点 在 被 允许 传输 之 前 必须 拥有 令 
Wf, 802.5 和 FDDI 是 令 牌 环 网 络 的 例子 

transport protocol (传输 协议 ): 使 不 同 主机 上 的 进 
程 进行 通信 的 端 到 端 协议 。TCP 是 一 个 典型 的 
示例 。 

TTL (Time to Live， 生 存 期 ): 它 通 常 是 一 个 IP 数 
据 报 在 被 丢弃 之 前 能 够 经 历 的 跳 数 (路由器) 
的 一 个 度量 值 ， 

tunneling (隧道 ): 使 用 运行 在 与 
协议 封装 一 个 分 组 。 例 如 ， 


Telnet: 


( band- 


-个 流 所 用 带 


分 组 同一 层 上 的 
多 播 IP 分 组 封装 在 


单 点 播送 TP 分 组 中 ,经 隧道 穿 过 因特网 实现 
Mbone。 障 道 也 可 用 于 从 IPv4 到 IPv6 的 转换 。 


two-dimensional pariy (二 维 奇 偶 ih 
HH HEI a, — 


il 关节 从 
个 算 阵 的 奇偶 校 验 方案 ， 同 时 


148 





计算 行 和 列 的 奇偶 性 ， 

Tymnet: 一 个 早期 的 网 络 ， 在 一 个 路 由 需 集 合 间 
维护 的 一 个 虚 电 路 (virtual circuit), 

UBR (Unspecified Bit Rate， 未 指明 比特 率 ): ATM 
中 的 “不 提供 不 必要 服务 ”的 一 类 服务 ， 提 供 尽 
力 的 信 元 传送 。 对 比 ABR, CBR 和 VBR, 

UDP (User Datagram Protocol， 用 户 数 据 报 协议 ): 
因特网 体系 结构 的 传输 协议 ， 提 供应 用 层 进 程 
之 间 的 无 连接 的 数据 报 服务 。 

UMTS (Universal Mobile Telecommunications Sys- 
tem， 通 用 移动 通信 系统 ): 基于 宽带 CDMA 的 
蜂窝 无 线 标准 ， 提 供 较 高 的 数据 传输 率 ， 

unicast ( 单 播 ): 指 发 送 一 个 分 组 给 一 个 单独 的 目 
的 主机 。 对 比 广播 (broadcast) 和 多 播 (multi- 
cast) 。 

URI (Uniform Resource Identifier， 统 一 资源 标识 
F): 推广 的 URL。 例 如， 与 SIP 联合 使 用 建立 
音频 /视频 会 话 。 

URL (Uniform Resource Locator， 统 一 资源 定位 
FF): 用 于 识别 因特网 资源 位 置 的 一 个 文本 串 。 
一 个 典型 的 URL 形 如 http://www. cisco. com, 
在 这 个 URL 中 ，http 是 一 个 协议 ， 用 于 访问 位 
于 主机 www. cisco. com 上 的 资源 。 

vat: 因特网 上 使 用 的 运行 在 RTP 之 上 的 音频 会 议 

VBR (Variable Bit Rate， 可 变 比 特 率 ): ATM 中 
的 服务 类 型 之 一 ， 用 于 带宽 需求 随时 间 变 化 的 
应 用 ， 如 压缩 的 视频 图 像 。 对 比 ABR, CBR 
和 UBR, 

VCI (Virtual Circuit Identifier, HBR ARIA): È 
是 分 组 首部 中 的 一 个 标识 符 ， 用 于 虚 电路 交换 。 
在 ATM 的 情况 下 ，VPI 和 VCI 一 起 标识 端 到 

: 基于 Unix 的 使 用 RTP 的 视频 会 议 工 具 。 

virtual circuit (EE R): 它 是 由 面向 连接 的 网 络 
(如 ATM) 提供 的 抽象 。 要 想 在 参与 者 之 间 交 
换 消息 ， 就 必须 在 数据 发 送 之 前 建立 一 条 虚 电 
路 (并 可 能 为 虚 电 路 分 配 资源 )。 对 比 数 据 报 
(datagram) 。 

virtual clock (虚拟 时 钟 ) : 一 种 服务 模型 ， 人 允许 源 
端 使 用 其 需要 的 基于 速率 的 找 述 在 路 由 器 上 预 
留 资 源 。 虚 拟 时 钟 不 属于 当前 因特网 的 尽力 传 
输 服 务 。 

VPI (Virtual Path Identifier， 虚 路 径 标 识 符 ): 


ATM 首部 中 的 一 个 8 比特 或 12 比特 字段 ，VPI 
可 用 于 将 穿 过 一 个 网 络 的 多 个 虚 连 ] ne J — 
条 虚 “ 路 径 ?”， 从 而 减少 交换 机 所 必须 维护 的 连 
接 状 态 的 数量 。 参 见 VCI， 

VPN (Virtual Private Network， 虚 拟 专用 网 ): 处 在 
某 些 现 有 网 络 之 上 的 好 辑 网 络 。 例如， 一 个 公 
司 在 世界 范围 内 有 一 些 站 点 ， 它 可 以 在 因特网 
的 顶部 建 一 个 虚拟 网 络 ， 而 不 必 租 用 每 个 站 点 
之 间 的 线路 ， 

WAN (Wide Area Network， 广 域 网 ): 指 可 以 跨越 
远 距离 (如 穿 过 国家 ) 的 任何 物理 网 络 技术 . 
对 比 SAN、LAN 和 WAN 

well-known port (周知 端口 ): 它 通 常 是 一 个 由 某 
个 特殊 服务 器 使 用 的 端口 号 。 例 如 ， 域 名 服务 
器 在 每 个 主机 的 众所周知 的 UDP 和 TCP 端口 
53 上 接收 消息 。 

weighted fair queuing (WFQ， 加 权 公 平 排队 法 ): 
公平 排队 法 【fair queuing) 的 一 个 变种 ， 可 以 
为 每 个 流 给 定 一 个 网 络 容量 的 不 同 份额 e 

WSDL (Web Service Description Language, Web 
服务 描述 语言 ): 用 于 定义 和 实现 应 用 协议 的 
Web 服务 框架 组 件 . 

WWW (World Wide Web， 万 维 网 ) : 
一 种 超 媒体 信息 服务 

X. 25: ITU 的 分 组 交换 协议 标准 。 

X. 400: ITU 的 电子 邮件 标准 与 因特网 体系 结构 
中 的 SMTP 相对 应 ， 

X. 500: ITU 的 日 录 服 务 标准 ， 
的 命名 服务 . 

X. 509: ITU 的 一 个 数字 证 书 标准 。 

XDR (External Data Representation， 外 部 数据 表 
AR): Sun 微 系 统 公 司 的 与 机 器 无 关 的 数据 结构 
的 标准 。 对 比 ASN. 1 和 NDR. 

XML (Extensible Markup Language， 可 扩展 标记 语 
言 ) : 用 计 描 述 因特网 应 用 程序 之 间 传 递 的 数据 
的 一 种 语法 规则 。 

XSD (XML Schema Definition): XML KHE X. 
用 于 定义 XML 对 象 格式 和 解释 的 模型 语言。 
zone (区 域 ): 域名 分 层 结构 的 一 个 划分 ， 对 应 于 
负责 分 层 结构 中 一 部 分 的 一 个 管理 机 构 。 每 个 
区 域 必须 至 少 有 两 台 名 字 服 务 器 用 于 答复 区 戌 

中 的 DNS 请 求 。 
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